[发明专利]一种移动流量应用识别特征提取方法及系统在审
申请号: | 202111483776.X | 申请日: | 2021-12-07 |
公开(公告)号: | CN114143301A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 陈曙晖;朱智豪;王飞;魏子令;赵双;陈荣茂;邢倩倩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04L67/02 | 分类号: | H04L67/02;H04L47/2483;H04W28/02;G06F16/955 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 王月松 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 流量 应用 识别 特征 提取 方法 系统 | ||
本发明涉及一种移动流量应用识别特征提取方法及系统。所述方法包括:获取目标移动应用的移动应用流量;提取移动应用流量中的各HTTP请求报文中的URL字段;对各URL字段进行处理得到左值集合,并将目标移动应用的名称与左值集合确定为原始数据;使用FP‑Growth算法对原始数据依次进行频繁项集和关联规则的提取得到关联规则;确定关联规则的左侧为目标移动应用的移动流量应用识别特征。本发明通过采用FP‑Growth算法对原始数据进行处理得到移动流量应用识别特征,实现了自动提取移动流量应用识别特征。
技术领域
本发明涉及流量特征提取技术领域,特别是涉及一种移动流量应用识别特征提取方法及系统。
背景技术
随着移动设备的普及和移动应用的繁荣发展,移动应用已成为人们当前最常用的上网方式,移动网络流量已经超过传统工作站流量成为网络流量的主要组成部分。研究关注的热点也从传统工作站流量识别转向了移动网络流量识别。
移动网络流量识别技术的目标是识别移动流量的来源应用,这项技术在网络管理与安全、市场调研和用户分析等领域有重要的作用。例如,基于这项技术,服务提供商可以掌握网络中的移动应用流量分布情况;网络管理员可以获取园区内流行的网络应用并优化相关网络资源分配以提高用户体验;广告提供商可以了解某一应用在何时何地更受用户欢迎从而制定更合理的广告投放策略等等。
移动应用识别技术是通过移动应用的流量识别特征进行判断的,当前移动应用流量识别特征提取的精确率较高的都是基于深度报文检测的,但是在最后提取特征的时候需要人工手动参与,自动化程度不高。
发明内容
本发明的目的是提供一种移动流量应用识别特征提取方法及系统,实现了自动提取移动流量应用特征。
为实现上述目的,本发明提供了如下方案:
一种移动流量应用识别特征提取方法,包括:
获取目标移动应用的移动应用流量;
提取所述移动应用流量中的各HTTP请求报文中的URL字段;
分别对各所述URL字段进行处理得到各URL字段对应的左值集合,并将所述目标移动应用的名称分别与各所述各URL字段对应的左值集合确定为原始数据;
使用FP-Growth算法对所述原始数据进行处理得到关联规则;
确定所述关联规则的左侧为所述目标移动应用的移动流量应用识别特征。
可选的,在所述提取所述移动应用流量中的各HTTP请求报文中的URL字段之前还包括:
对所述移动应用流量进行流重组操作得到重组后的网络流;
将所述重组后的网络流中预设条件的流剔除得到预处理后的移动应用流量;所述预设条件的流为没有完整TCP握手过程的HTTP流、服务器响应状态码不是“2XX”的HTTP流和HTTPS流。
可选的,所述对各所述URL字段进行处理得到左值集合,具体包括:
对于任意一个URL字段;对所述URL字段以设定字符进行分词,得到词组集合;
将所述词组集合中各词组的“=”和“=”右侧的字段删除得到所述URL字段对应的左值集合。
可选的,所述使用FP-Growth算法对所述原始数据进行处理得到关联规则,具体包括:
根据所述原始数据构造FP树;
根据所述FP树得到所述目标移动应用的频繁项集;
根据所述频繁项集得到所述关联规则。
一种移动流量应用识别特征提取系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483776.X/2.html,转载请声明来源钻瓜专利网。