[发明专利]一种基于聚合熵的网络流量分类方法及分类系统有效
| 申请号: | 202210236676.5 | 申请日: | 2022-03-11 |
| 公开(公告)号: | CN114866485B | 公开(公告)日: | 2023-09-29 |
| 发明(设计)人: | 阎星娥;何刘坤;谢谷阳;王良民;刘慰慰;杨昆 | 申请(专利权)人: | 南京华飞数据技术有限公司 |
| 主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;H04L9/40;G06F18/23213;G06F18/241;G06N20/00 |
| 代理公司: | 南京品智知识产权代理事务所(普通合伙) 32310 | 代理人: | 张明昌 |
| 地址: | 210000 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 聚合 网络流量 分类 方法 系统 | ||
1.一种基于聚合熵的网络流量分类方法,其特征是包括:
步骤1、捕获网络出口处流量,经过数据清洗后使用五元组信息将其分割为不同流;
步骤2、遍历每条流中数据包的包头部分与数据部分字节流,分别计算每个大小-端口号二元组和聚合字节出现的次数;
步骤3、结合二元组计数矩阵和字符计数器计算流的二元属性熵和字符熵,融合二元属性熵和字符熵为聚合熵;
步骤4、使用聚合熵结合随机性检测特征,创建特征向量训练机器学习分类模型,对新收集的未标记流进行识别;
所述步骤2中分别计算每个大小-端口号二元组和聚合字节出现的次数,具体为:分别遍历每条流中数据包的包头部分与数据部分字节流,计算包头部分数据包大小-端口号二元组属性值出现的次数,结合多编码匹配算法计算数据部分字节流中每个聚合字节出现的次数;
所述步骤3中结合二元组计数矩阵和字符计数器计算流的二元属性熵和字符熵,融合二元属性熵和字符熵为聚合熵,具体为:根据流的二元组计数矩阵和字符计数器计算包头部分的二元属性熵与数据部分归一化字符Tsallis熵,并进行加权求和得出聚合熵。
2.根据权利要求1所述的一种基于聚合熵的网络流量分类方法,其特征是所述步骤1中捕获网络出口处流量具体为采集网络出口区域产生的流量;
所述步骤1中数据清洗,具体为:去除所捕获网络出口处流量中的问题数据包;
所述步骤1中使用五元组信息将其分割为不同流,具体为:使用五元组信息将经过数据清洗后的所捕获网络出口处流量分割为不同流;
所述步骤4使用聚合熵值结合随机性检测特征,创建特征向量训练机器学习分类模型,对新收集的未标记流进行识别;具体为:使用聚合熵值结合随机性检测特征,创建特征向量训练机器学习分类模型,对新收集的未标记流进行识别,获取识别结果,并结合已有数据集更新机器学习模型;
所述问题数据包包括由于网络延迟导致的重传数据包、服务器错误导致的请求失败数据包;所述问题数据包还包括其它受损或非人为产生的数据包;
所述步骤4中随机性检测特征包括累加和检验值、块内频数检测值。
3.一种基于聚合熵的网络流量分类系统,其特征是包括流量获取子系统,流量簇分类子系统,聚合熵提取子系统,识别子系统;
所述流量获取子系统在网络流量的出口区域或核心区部署分流设备,汇聚不同光纤中的流量,经过数据清洗后更新流表并通过负载均衡技术转发到流量簇分类子系统的I/O接口上;
所述流量簇分类子系统计算每条流的五元组hash值,并判断流表中是否存在对应记录,若存在则直接为该条流分配流标签形成已标记流,若不存在对应记录,则结合已标记数据集训练若干个聚类模型,使用动态加权概率组合策略为该条流分配流标签形成已标记流;
所述聚合熵提取子系统提取已标记流的数据包大小-端口号二元组序列,结合计数法计算二元属性熵;并截取流的前ηKB字节,结合多编码匹配算法计算字符熵;最后融合二元属性熵和字符熵为聚合熵;
所述识别子系统使用已标记流的聚合熵值结合随机性检测特征,创建特征向量训练机器学习分类模型,对新收集的未标记流进行识别,获取识别结果;
所述流量簇分类子系统计算每条流的五元组hash值,并判断流表中是否存在对应记录,若存在则直接为该条流分配流标签形成已标记流,若不存在对应记录,则结合已标记数据集训练若干个聚类模型,使用动态加权概率组合策略为该条流分配流标签形成已标记流,具体过程包括:
对于新收集到的包含ρ个数据包的数据包序列P={p1,p2,..,pρ},首先根据五元组将新收集到的数据包序列拆分为双向流T={p1,p2,..,pδ},计算五元组hash值hashi,接着判断流表TC是否存在hashi对应的记录,若存在则直接为该条流分配流标签labeli,若不存在则跳过,δ表示双向流中数据包的个数,δ≤ρ;
随后使用不同的聚类算法将包含已标记流与未标记流的数据集划分为不同簇;对于每个聚类算法聚类出的簇,使用簇中占比最大的已标记流的标签做为该簇标签,并计算每条未标记流f属于不同簇Cm的概率pf,m∈[0,1],f=1,…,F;m=1,…,M,其中F和M分别表示未标记流样本与簇的总数量;随后计算每个簇Cm的权重wm,即:
其中M表示簇的个数,Cm表示第m个簇,Iv:Cm→[0,1]表示第v种映射关系,V为映射关系可选择的映射空间,包括簇Cm的大小占总大小的比例、簇Cm簇内距离的归一化值,H表示熵,对于任意的概率分布:
最后根据pf,m和wm计算每个聚类算法的动态加权概率组合矩阵,即:
并根据最大值策略为流样本中未标记流分配标签,即
其中A代表所使用的聚类算法个数,mfa代表第a个聚类算法计算出的最大加权概率标签;
所述聚合熵提取子系统提取已标记流的数据包大小-端口号二元组序列,结合计数法计算二元属性熵;并截取流的前ηKB字节,结合多编码匹配算法计算字符熵;最后融合二元属性熵和字符熵为聚合熵;具体步骤包括如下:
步骤(1)、根据应用层协议的不同将流中每个数据包拆分为包头部分与数据部分,提取包头部分中包含的数据包大小与端口号二元组序列直至流结束,同时截取流除去数据包包头部分后的前ηKB字节流;
步骤(2)、将数据包大小与端口号二元组序列中的每个属性值对视为一个元素更新属性值对计数器,将前ηKB字节流的每k个字节视为一个元素,结合多编码匹配算法更新字符计数器;
步骤(3)、分别计算包头部分的二元属性熵与数据部分字符Tsallis熵并聚合为聚合熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210236676.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多用途建筑垃圾智能粉碎设备
- 下一篇:一种超高稳定度电源设备





