[发明专利]基于机器学习的移动应用流量识别方法及系统在审
申请号: | 202210134214.2 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114500387A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 陈龙;汤婷婷;韩世凯 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L47/125 | 分类号: | H04L47/125;H04L47/2441;H04L47/2483;H04L69/22;G06N3/00;G06N20/00 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 移动 应用 流量 识别 方法 系统 | ||
1.基于机器学习的移动应用流量识别方法,其特征在于:该方法包括以下步骤:
S1:流量采集阶段:采集相应的APP流量,制作训练模型所需的流量数据集;
S2:流量处理阶段:对采集到的数据包,进行流量数据的预处理;
S3:特征提取阶段:提取流量数据的37个特征值,用于模型的训练;
S4:流量标记阶段:为每条特征流量标记真实的应用类别;
S5:流量平衡阶段:处理类别分布不平衡的应用流量问题;
S6:模型训练阶段:将特征样本分类训练,构建APP流量特征库。
2.根据权利要求1所述的基于机器学习的移动应用流量识别方法,其特征在于:所述S1具体包括:
S11:手机获取并运行APK文件,同时连接PC端热点;
S12:PC端开启wireshark,采集来自手机的移动应用流量;
S13:采集目标应用时,在手机终端只运行此应用程序,并且关闭手机系统带有的程序后台运行功能,禁止后台运行,以防止有其他应用以及安卓操作系统产生的后台流量带来干扰;
S14:每个应用采集的流量数据以后续生成的特征数据量为依据,采集目标为:采集到的流量经过流量处理和生成特征后,特征数据量能达到3000左右;
S15:采集的数据集中,记录着每一个数据包详细信息,包括:时间、数据包大小、源IP地址、目的IP地址、源端口、目的端口、协议和TCP/IP标志;
S16:在采集数据后,应用流量以pcap格式转储在本地。
3.根据权利要求1所述的基于机器学习的移动应用流量识别方法,其特征在于:所述步骤S2具体包括:
S21:利用wireshark工具过滤删除错误、重传的数据包;
S22:将pcap文件利用tshark转储为后期可处理的csv文件;tshark是网络分析工具wireshark下的一个工具,对本地存储的pcap文件进行解析,通过命令提取我们所需的数据内容,包括:源IP地址、目的IP地址、源端口、目的端口、数据包大小以及两个数据包发送的间隔时间,将解析到的数据重定向到CSV文件,为后续的特征提取模块做准备。
4.根据权利要求1所述的基于机器学习的移动应用流量识别方法,其特征在于:所述步骤S3具体包括:
S31:进行过预处理的流量数据集,首先被离散成突发形式的网络流量块;
S32:在每个突发内,依据相同的四元组,即源IP地址、目的IP地址、源端口和目的端口,将突发细分为若干条突发流,作为提取流量特征的基本单位;
S33:对每一条突发流提取相应的特征数据,包括:最大包长、最小包长、包长的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10%到90%的数据包的长度、最大的时间间隔、最小的时间间隔、时间间隔的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10%到90%的数据包的时间间隔、每条突发流里包的总数,共计37个特征值;
S34:将计算结果保存在本地,作为特征数据集。
5.根据权利要求1所述的基于机器学习的移动应用流量识别方法,其特征在于:所述步骤S6具体包括:
S61:对特征样本集按8:2划分训练集和测试集;
S62:将训练集输入到初始分类器,利用随机森林算法对其训练分类;
S63:将训练好的分类模型,利用测试集评估分类器的准确率;
S64:将优化后的分类模型保存至APP流量特征库。
6.基于机器学习的移动应用流量识别系统,其特征在于:该系统包括流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块和结果展示模块;
流量监听模块,部署流量监听工具wireshark,对手机发出的应用流量进行捕获,每捕获1000个数据包自动保存到本地;
流量处理模块,对保存在本地的pcap形式的流量,过滤和删除错误、重传的数据包,再利用tshark命令解析pcap文件,获取每个数据包的源IP地址、目的IP地址、源端口、目的端口、数据包大小以及两个数据包发送的间隔时间,并且重定向到CSV文件中;
流量展示模块,将解析出来的每条数据包,按[源IP地址、目的IP地址、源端口、目的端口、数据包大小、两个数据包发送的间隔时间]的格式,显示在UI界面,供用户直观地了解和观察捕获到的数据包;
特征提取模块,将经过处理后的流量数据,离散成突发形式的网络流量块,再根据四元组,即源IP地址、目的IP地址、源端口和目的端口,分离成突发流,提取每条突发流的37个特征数据,保存为待检测的特征样本;
特征展示模块,将提取到的每条突发流的37个特征数据值,显示在UI界面,供用户直观地了解和观察每条突发流的特征数据;
应用识别模块,将待检测的特征样本放入APP流量特征库中进行匹配,匹配过程中,预测概率大于0.9的结果,被认为与某类别耦合度高,判定移动流量来自此应用;
结果展示模块,将应用识别结果显示在UI界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210134214.2/1.html,转载请声明来源钻瓜专利网。