[发明专利]一种区分加密和非加密压缩流量的方法和系统有效
| 申请号: | 201910324684.3 | 申请日: | 2019-04-22 |
| 公开(公告)号: | CN110012029B | 公开(公告)日: | 2020-05-26 |
| 发明(设计)人: | 曾学文;唐政治;郭志川;吴京洪 | 申请(专利权)人: | 中国科学院声学研究所;北京中科视云科技有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 区分 加密 压缩 流量 方法 系统 | ||
1.一种区分加密和非加密压缩流量的方法,其特征在于,该方法包括:
采集并获取网络中的网络流量数据包;
解析该数据包得到网络流量数据包的有效载荷,截取固定长度的有效载荷作为待识别分类的样本序列;基于熵的特征提取算法提取所述待识别分类的样本序列的特征向量;
将所述特征向量输入至预先训练好的机器学习模型进行识别分类,获取该网络流量数据包的类型,该网络流量数据包的类型包括:加密流量、非加密流量和非加密压缩流量;
所述预先训练好的机器学习模型具体包括:
采集加密、非加密和非加密压缩三种性质的流量的原始数据包,同时对这三种性质的流量做好标签,作为训练数据集;
对这三种性质的流量按照基于熵的特征提取算法提取具有区分性的特征,将这三种性质流量的特征集以及其对应的标签构成训练数据集,并进行训练,获得训练好的机器学习模型。
2.根据权利要求1所述的区分加密和非加密压缩流量的方法,其特征在于,所述截取固定长度的有效载荷作为待识别分类的样本序列;具体包括:
根据计算量和识别精度,截取有效载荷的固定长度;并将该固定长度的有效载荷作为待识别分类的样本序列;其中,对当前获得的网络流量数据包的有效载荷不足以设定固定长度的情况,可由下一个网络流量数据包中的有效载荷填充或者填充零,来截取有效载荷的固定长度。
3.根据权利要求1所述的区分加密和非加密压缩流量的方法,其特征在于,所述基于熵的特征提取算法提取所述待识别分类的样本序列的特征向量;具体包括:
采用连续子二进制串熵的特征提取算法,
其中,Hk表示在不同长度子二进制串的情况下的连续子二进制串熵;
Sk表示在不同长度子二进制串的情况下,原来的二进制样本序列被切分成的子二进制串的集合;
mik表示子二进制串集合Sk中第i个元素的频数;
mik满足
L为原二进制样本序列的长度;
k为连续的子二进制串的数目;
l为子二进制串的长度。
4.根据权利要求3所述的区分加密和非加密压缩流量的方法,其特征在于,所述提取所述待识别分类的样本序列的特征向量具体包括:
采用基于连续子二进制串熵的特征提取算法,将所述待识别分类的样本序列转换为二进制待识别分类的样本序列,采用大小为8的滑动窗口,设置初始移动步长为1,从二进制待识别分类的样本序列的头到尾滑动采样,最后将采样得到的所有8比特子二进制串依序构成新的样本序列;然后,分别设置步长为2、3、4、5、6、7和8,得到8个二进制样本序列;
对得到的8个二进制样本序列,按照连续子二进制串熵的特征提取算法,分别计算每个二进制样本序列,得到各个二进制样本序列的连续子二进制串熵Hk;将得到的各个二进制样本序列的连续子二进制串熵值构成所述待识别分类的样本序列的特征向量。
5.根据权利要求1所述的区分加密和非加密压缩流量的方法,其特征在于,所述获取该网络流量数据包的类型具体包括:
实时采集网络流量数据包,解析得到固定长度的有效载荷二进制序列,根据基于连续子二进制串熵的特征提取算法提取特征向量;
预先训练好的机器学习模型对输入的特征向量进行分层计算,然后,输出一个三元组的概率值(P1,P2,P3),该三元组概率值分别为对应加密、非加密、非加密压缩三种网络流量数据包类型的可能性概率;
最后,选取三元组概率值中最大的概率值所对应的类别标签即为输入特征向量所识别出来的类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科视云科技有限公司,未经中国科学院声学研究所;北京中科视云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910324684.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗身份认证方法和系统
- 下一篇:一种关联检测黑客的方法及装置





