[发明专利]基于机器学习的移动应用流量识别方法及系统在审
申请号: | 202210134214.2 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114500387A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 陈龙;汤婷婷;韩世凯 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L47/125 | 分类号: | H04L47/125;H04L47/2441;H04L47/2483;H04L69/22;G06N3/00;G06N20/00 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 移动 应用 流量 识别 方法 系统 | ||
本发明涉及一种基于机器学习的移动应用流量识别方法及系统,属于流量识别领域。所述方法包括:流量采集阶段、流量处理阶段、特征提取阶段、流量标记阶段、流量平衡阶段、模型训练阶段;所述系统包括:流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块、结果展示模块。本发明提出了多特征融合的特征提取方案,提升了信息丰富度,优化了模型训练效果,分类准确性得到提升;设计出SMOTE+ENN样本平衡算法与随机森林算法相结合的模型训练方式,使得少数类样本的误分率降低,提高了分类器的分类识别能力。
技术领域
本发明属于流量识别领域,涉及基于机器学习的移动应用流量识别方法。
背景技术
移动应用流量的特殊性给传统的流量识别方法带来了很大的挑战。首先,移动通信几乎都是通过HTTP/HTTPS传输的,这使得基于端口识别的传统方法只能将移动流量识别为Web,无法识别出流量来自哪个具体的应用程序。其次,基于DPI(深度报文检测技术)的传统方法是通过识别数据包的有效负载来识别流量,如今,为了保护用户的隐私,很多应用程序使用加密协议进行数据的传输,DPI技术就没有办法有效的满足实际应用需求。基于以上原因,传统的流量识别方法不适用于移动应用流量的识别处理。
基于机器学习的移动应用流量识别方法,不需要掌握各种协议数据流的包结构,它们通过学习不同应用数据包的某些统计特征,如报文的间隔时间,报文大小,流持续时间等形成分类器来识别移动应用流量。加密技术一般只对载荷信息进行加密而不是对流量特征进行处理,该方法受加密影响较小。
发明内容
有鉴于此,本发明的目的在于提供一种基于机器学习的移动应用流量识别方法。可以解决移动应用流量类别分布不平衡的问题,提高分类器的分类识别能力,有效保证移动应用流量识别的准确率;提出的轻量级移动应用流量识别系统,能够将捕获到的真实流量,无论这些流量是加密还是未加密的,分析处理,自动地提取相应的统计特征,与APP流量特征库进行匹配,识别出流量来自哪个应用程序。
为达到上述目的,本发明提供如下技术方案:
基于机器学习的移动应用流量识别方法,该方法包括以下步骤:
S1:流量采集阶段:采集相应的APP流量,制作训练模型所需的流量数据集;
S2:流量处理阶段:对采集到的数据包,进行流量数据的预处理;
S3:特征提取阶段:提取流量数据的37个特征值,用于模型的训练;
S4:流量标记阶段:为每条特征流量标记真实的应用类别;
S5:流量平衡阶段:处理类别分布不平衡的应用流量问题;
S6:模型训练阶段:将特征样本分类训练,构建APP流量特征库。
可选的,所述S1具体包括:
S11:手机获取并运行APK文件,同时连接PC端热点;
S12:PC端开启wireshark,采集来自手机的移动应用流量;
S13:采集目标应用时,在手机终端只运行此应用程序,并且关闭手机系统带有的程序后台运行功能,禁止后台运行,以防止有其他应用以及安卓操作系统产生的后台流量带来干扰;
S14:每个应用采集的流量数据以后续生成的特征数据量为依据,采集目标为:采集到的流量经过流量处理和生成特征后,特征数据量能达到3000左右;
S15:采集的数据集中,记录着每一个数据包详细信息,包括:时间、数据包大小、源IP地址、目的IP地址、源端口、目的端口、协议和TCP/IP标志;
S16:在采集数据后,应用流量以pcap格式转储在本地。
可选的,所述步骤S2具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210134214.2/2.html,转载请声明来源钻瓜专利网。