[发明专利]一种基于半监督学习的网络流量分类方法、计算机设备在审
申请号: | 201711103392.4 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107819698A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 冉静;孔晓晨;刘元安;胡鹤飞;袁东明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L12/26;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 网络流量 分类 方法 计算机 设备 | ||
1.一种基于半监督学习的网络流量分类方法,其特征在于,该网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;
S2,根据已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;
S3,将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;
S4,获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;
S5,当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;
S6,重复步骤S4-S5,直到k个聚簇都判定出流量类型的流量簇;
S7,将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。
2.根据权利要求1所述的网络流量分类方法,其特征在于,所述网络流特征向量的权值是用于在k-means算法中计算加权欧式距离的。
3.根据权利要求2所述的网络流量分类方法,其特征在于,所述步骤S1中已标记网络流占总的网络流数量的比例为预设值rl,且每种类型的已标记网络流的数量相同。
4.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值rl的一半。
5.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述步骤S2中包括:根据所述已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,其具体公式为:
IG(Fi)=H(C)-E(Fi);
其中,C表示已标记的网络流集合,H(C)为这些已标记网络流总体的熵,Fi表示网络流的第i个特征,E(Fi)为当网络流根据特征Fi的值划分为子集时的熵。
6.根据权利要求5所述的网络流量分类方法,其特征在于,所述步骤S2中根据所述信息增益对每个流特征进行特征加权,计算网络流特征Fi的权值wi的具体公式为:
其中,IG(Fi)为网络流特征Fi的信息增益,为所有网络流特征的信息增益的总和。
7.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述S4中包括:
获取每个聚簇Ci中已标记网络流特征向量的数目ni;
当ni的取值大于0时,计算最大后验概率,其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例,其中后验概率P(L=lj|Ci)=nij/ni。
8.根据权利要求4所述的网络流量分类方法,其特征在于,所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时,其具体计算公式为:
其中,nij表示簇i中类别为j的网络流数目,为簇i中已标记网络流特征向量的总数目,rl表示已标记网络流占总的网络流数量的比例,表示被聚类到簇i中所有网络流的数目。
9.一种计算机设备,其特征在于,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711103392.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据传输方法、交换机及数据中心
- 下一篇:一种数据业务的处理方法及系统