[发明专利]基于机器学习的移动应用流量识别方法及系统在审

专利信息
申请号: 202210134214.2 申请日: 2022-02-14
公开(公告)号: CN114500387A 公开(公告)日: 2022-05-13
发明(设计)人: 陈龙;汤婷婷;韩世凯 申请(专利权)人: 重庆邮电大学
主分类号: H04L47/125 分类号: H04L47/125;H04L47/2441;H04L47/2483;H04L69/22;G06N3/00;G06N20/00
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 廖曦
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 移动 应用 流量 识别 方法 系统
【说明书】:

发明涉及一种基于机器学习的移动应用流量识别方法及系统,属于流量识别领域。所述方法包括:流量采集阶段、流量处理阶段、特征提取阶段、流量标记阶段、流量平衡阶段、模型训练阶段;所述系统包括:流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块、结果展示模块。本发明提出了多特征融合的特征提取方案,提升了信息丰富度,优化了模型训练效果,分类准确性得到提升;设计出SMOTE+ENN样本平衡算法与随机森林算法相结合的模型训练方式,使得少数类样本的误分率降低,提高了分类器的分类识别能力。

技术领域

本发明属于流量识别领域,涉及基于机器学习的移动应用流量识别方法。

背景技术

移动应用流量的特殊性给传统的流量识别方法带来了很大的挑战。首先,移动通信几乎都是通过HTTP/HTTPS传输的,这使得基于端口识别的传统方法只能将移动流量识别为Web,无法识别出流量来自哪个具体的应用程序。其次,基于DPI(深度报文检测技术)的传统方法是通过识别数据包的有效负载来识别流量,如今,为了保护用户的隐私,很多应用程序使用加密协议进行数据的传输,DPI技术就没有办法有效的满足实际应用需求。基于以上原因,传统的流量识别方法不适用于移动应用流量的识别处理。

基于机器学习的移动应用流量识别方法,不需要掌握各种协议数据流的包结构,它们通过学习不同应用数据包的某些统计特征,如报文的间隔时间,报文大小,流持续时间等形成分类器来识别移动应用流量。加密技术一般只对载荷信息进行加密而不是对流量特征进行处理,该方法受加密影响较小。

发明内容

有鉴于此,本发明的目的在于提供一种基于机器学习的移动应用流量识别方法。可以解决移动应用流量类别分布不平衡的问题,提高分类器的分类识别能力,有效保证移动应用流量识别的准确率;提出的轻量级移动应用流量识别系统,能够将捕获到的真实流量,无论这些流量是加密还是未加密的,分析处理,自动地提取相应的统计特征,与APP流量特征库进行匹配,识别出流量来自哪个应用程序。

为达到上述目的,本发明提供如下技术方案:

基于机器学习的移动应用流量识别方法,该方法包括以下步骤:

S1:流量采集阶段:采集相应的APP流量,制作训练模型所需的流量数据集;

S2:流量处理阶段:对采集到的数据包,进行流量数据的预处理;

S3:特征提取阶段:提取流量数据的37个特征值,用于模型的训练;

S4:流量标记阶段:为每条特征流量标记真实的应用类别;

S5:流量平衡阶段:处理类别分布不平衡的应用流量问题;

S6:模型训练阶段:将特征样本分类训练,构建APP流量特征库。

可选的,所述S1具体包括:

S11:手机获取并运行APK文件,同时连接PC端热点;

S12:PC端开启wireshark,采集来自手机的移动应用流量;

S13:采集目标应用时,在手机终端只运行此应用程序,并且关闭手机系统带有的程序后台运行功能,禁止后台运行,以防止有其他应用以及安卓操作系统产生的后台流量带来干扰;

S14:每个应用采集的流量数据以后续生成的特征数据量为依据,采集目标为:采集到的流量经过流量处理和生成特征后,特征数据量能达到3000左右;

S15:采集的数据集中,记录着每一个数据包详细信息,包括:时间、数据包大小、源IP地址、目的IP地址、源端口、目的端口、协议和TCP/IP标志;

S16:在采集数据后,应用流量以pcap格式转储在本地。

可选的,所述步骤S2具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210134214.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top