[发明专利]一种移动流量应用识别特征提取方法及系统在审
申请号: | 202111483776.X | 申请日: | 2021-12-07 |
公开(公告)号: | CN114143301A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 陈曙晖;朱智豪;王飞;魏子令;赵双;陈荣茂;邢倩倩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04L67/02 | 分类号: | H04L67/02;H04L47/2483;H04W28/02;G06F16/955 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 王月松 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 流量 应用 识别 特征 提取 方法 系统 | ||
1.一种移动流量应用识别特征提取方法,其特征在于,包括:
获取目标移动应用的移动应用流量;
提取所述移动应用流量中的各HTTP请求报文中的URL字段;
分别对各所述URL字段进行处理得到各URL字段对应的左值集合,并将所述目标移动应用的名称分别与各所述URL字段对应的左值集合确定为原始数据;
使用FP-Growth算法对所述原始数据进行处理得到关联规则;
确定所述关联规则的左侧为所述目标移动应用的移动流量应用识别特征。
2.根据权利要求1所述的一种移动流量应用识别特征提取方法,其特征在于,在所述提取所述移动应用流量中的各HTTP请求报文中的URL字段之前还包括:
对所述移动应用流量进行流重组操作得到重组后的网络流;
将所述重组后的网络流中预设条件的流剔除得到预处理后的移动应用流量;所述预设条件的流为没有完整TCP握手过程的HTTP流、服务器响应状态码不是“2XX”的HTTP流和HTTPS流。
3.根据权利要求1所述的一种移动流量应用识别特征提取方法,其特征在于,所述对各所述URL字段进行处理得到左值集合,具体包括:
对于任意一个URL字段;对所述URL字段以设定字符进行分词,得到词组集合;
将所述词组集合中各词组的“=”和“=”右侧的字段删除得到所述URL字段对应的左值集合。
4.根据权利要求1所述的一种移动流量应用识别特征提取方法,其特征在于,所述使用FP-Growth算法对所述原始数据进行处理得到关联规则,具体包括:
根据所述原始数据构造FP树;
根据所述FP树得到所述目标移动应用的频繁项集;
根据所述频繁项集得到所述关联规则。
5.一种移动流量应用识别特征提取系统,其特征在于,包括:
获取模块,用于获取目标移动应用的移动应用流量;
提取模块,用于提取所述移动应用流量中的各HTTP请求报文中的URL字段;
左值确定模块,用于分别对各所述URL字段进行处理得到各URL字段对应的左值集合,并将所述目标移动应用的名称分别与各所述URL字段对应的左值集合确定为原始数据;
关联规则确定模块,用于使用FP-Growth算法对所述原始数据进行处理得到关联规则;
特征确定模块,用于确定所述关联规则的左侧为所述目标移动应用的移动流量应用识别特征。
6.根据权利要求5所述的一种移动流量应用识别特征提取系统,其特征在于,还包括:
流重组模块,用于对所述移动应用流量进行流重组操作得到重组后的网络流;
流剔除模块,应用将所述重组后的网络流中预设条件的流剔除得到预处理后的移动应用流量;所述预设条件的流为没有完整TCP握手过程的HTTP流、服务器响应状态码不是“2XX”的HTTP流和HTTPS流。
7.根据权利要求5所述的一种移动流量应用识别特征提取系统,其特征在于,所述左值确定模块,具体包括:
分词单元,用于对于任意一个URL字段;对所述URL字段以设定字符进行分词,得到词组集合;
左值确定单元,用于将所述词组集合中各词组的“=”和“=”右侧的字段删除得到所述URL字段对应的左值集合。
8.根据权利要求5所述的一种移动流量应用识别特征提取系统,其特征在于,所述关联规则确定模块,具体包括:
FP树构造单元,用于根据所述原始数据构造FP树;
频繁项集确定单元,用于根据所述FP树得到所述目标移动应用的频繁项集;
关联规则确定单元,用于根据所述频繁项集得到所述关联规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483776.X/1.html,转载请声明来源钻瓜专利网。