[发明专利]一种基于服务分析的高耦合移动应用识别方法在审
申请号: | 202210623575.3 | 申请日: | 2022-06-02 |
公开(公告)号: | CN115065983A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 吴桦;王瑞;程光 | 申请(专利权)人: | 东南大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;G06K9/62;G06N20/00;G06N20/10 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 服务 分析 耦合 移动 应用 识别 方法 | ||
1.一种基于服务分析的高耦合移动应用识别方法,其特征在于,该方法包括以下步骤:
步骤(1)获取高耦合移动应用从启动开始到运行几十秒内的网络流量数据,并为网络流量数据打上应用标签;
步骤(2)设置时间长度t,将每个流量样本切分成相同时间长度的样本;
步骤(3)基于步骤(2)的结果,提取每个流量样本中移动应用访问的服务信息作为属性,形成属性空间;
步骤(4)基于步骤(3)的结果,根据属性空间生成特征向量,将特征向量和样本的标签组成样例;
步骤(5)使用有监督的机器学习模型对步骤(4)得到的样例进行模型训练;
步骤(6)基于步骤(5)中模型生成的feature_importance对属性进行排序,使用包裹式方法对属性空间进行优化,得到新的属性空间;
步骤(7)基于步骤(6)中得到的新的属性空间生成特征向量,进一步生成样例;
步骤(8)基于步骤(5),对步骤(7)得到的样例进行模型训练;
重复步骤(5)-(8),直到模型的识别准确率开始降低时停止重复过程,得到优化的属性空间和最终的识别模型;
步骤(9)提取t秒新传入网络流量中移动应用访问的服务信息;
步骤(10)基于步骤(9)的结果,根据步骤(6)重复过程中得到的优化的属性空间生成特征向量;
步骤(11)使用步骤(8)中最终得到的识别模型识别步骤(10)中特征向量对应的移动应用。
2.根据权利要求1所述的一种基于服务分析的高耦合移动应用识别方法,其特征在于,步骤(1)中,获取原始流量数据的方法如下:
选定待识别的高耦合移动应用并捕获高耦合移动应用从启动开始到运行一段时间内的网络流量数据,并为网络流量数据打上应用标签,从而得到带标签的高耦合移动应用数据集。
3.根据权利要求1所述的一种基于服务分析的高耦合移动应用识别方法,其特征在于,步骤(2)中,获取相同时间长度的流量样本的方法如下:
设置时间长度为t,每个流量样本都是高耦合移动应用从启动开始到运行共计t秒的网络流量数据。
4.根据权利要求1所述的一种基于服务分析的高耦合移动应用识别方法,其特征在于,步骤(3)中,提取移动应用访问的服务信息并形成属性空间的方法如下:
根据步骤(2)设置的时间长度t,提取t秒流量样本内移动应用访问的服务的信息,并将服务作为属性空间的属性,其中属性的格式为(IP:Port)和(DomainName:Port)。
5.根据权利要求1所述的一种基于服务分析的高耦合移动应用识别方法,其特征在于,步骤(4)中,构造特征向量并形成样例的步骤如下:
(4.1)根据上述的属性空间生成每个流量样本的特征向量,格式如(1)所示
xi=(xi1;xi2;…;xid) (1)
其中,xij是样本xi在第j个属性上的取值,d是属性空间的维度,如果样本xi访问了第j个属性即服务,xij取值为1,否则取值为0;
(4.2)将特征向量和移动应用的标签组合在一起形成样例(xi,yi),yi是流量样本xi对应的应用标签。
6.根据权利要求1所述的一种基于服务分析的高耦合移动应用识别方法,其特征在于,步骤(5)中,使用机器学习模型对步骤(4.2)得到的带有标签的样例进行模型训练,得到识别模型的方法如下:
(5.1)将步骤(4.2)中得到的已标记的样本划分为训练集和测试集,比例为7:3,用于模型的训练;
(5.2)使用多个机器学习模型针对训练集进行模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210623575.3/1.html,转载请声明来源钻瓜专利网。