[发明专利]基于多特征学习的网络加密流量分类方法及系统有效
申请号: | 202110221394.3 | 申请日: | 2021-02-27 |
公开(公告)号: | CN113037730B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 卜佑军;张稣荣;陈博;张桥;袁征;伊鹏;马海龙;胡宇翔;王方玉;孙嘉;路祥雨;王继;张进 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N3/049;H04L41/14;G06N3/048;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 学习 网络 加密 流量 分类 方法 系统 | ||
本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统,包含:通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。本发明能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力,具有较好的应用价值。
技术领域
本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统。
背景技术
近年来,由于加密技术的不断发展,流量加密技术在互联网上得到了广泛的应用。加密技术不仅保护了普通互联网用户的隐私和匿名性,同时也能使用户绕开防火墙和监控系统的检测,这就使得恶意用户有了可乘之机,例如,攻击者对恶意软件通信进行加密,以匿名入侵和攻击系统等。可以说,加密技术的滥用给网络安全和网络管理带来了新的威胁。因此,加密流量分类的识别和分类问题引起了学术界和工业界的广泛关注。流量分类是将网络流量准确识别为特定类别的任务,对许多应用程序都起着重要作用,如服务质量控制、恶意软件检测和入侵检测等。随着时间的推移和科技的进步,流量分类技术已经有了显著的发展。目前,流量分类技术主要有四种方法:基于端口号、基于内容、基于机器学习以及基于深度学习的分类方法。基于端口号对流量进行分类是最简单的一种分类方法。但是由于随机端口分配和端口伪装等技术的发展,这种方法的精度很低,一般不单独使用,而是和其他方法结合,一起进行流量分类。基于内容的流量分类方法依赖于深度数据包检测(DeepPacket Inspection,DPI),通过提取数据包中的关键字与DPI指纹库数据进行特征匹配,从而确定每个应用程序类型。但由于技术性和隐私性等因素无法对加密流量解密,这种方法不适用于加密流量。基于机器学习的流量分类方法的一般工作流程为:首先专家手动进行特征设计,然后从原始流量数据集中进行特征提取,最后将提取的特征输入到机器学习分类器(如决策树或朴素贝叶斯等)中对流量进行分类。可以看出,基于机器学习的分类方法高度依赖人工进行特征选择和提取,极大限制了它们的性能和通用性;而且所有的步骤都是独立的,即使每个步骤都得到了最好的结果,全局的结果也不一定是最优解。
针对机器学习的这些弊端,深度学习模型应运而生。相对于机器学习模型,深度学习模型通过训练自动进行特征选择和提取,不需要人工干涉。在当今流量新类型不断出现、旧类模式不断演变的情况下,这种特性使得深度学习成为一种高效的流量分类方法。深度学习的另一个重要的特性是其强大的学习能力,可以从高度复杂的环境中学习更多特征,从而获得较高的精度和准确率。此外,深度学习作为一种端到端的方法,能够自动学习原始流量与对应类别之间的非线性关系,各步骤之间是统一而非独立的,可以通过训练得到一个全局最优解。在加密流量分类这一领域,已经有很多基于深度学习的研究,但是大多数研究中流量特征通常只用到了空间特征或者时序特征中的某一种,而非全部。这样做虽然能够节省计算和存储开销,但是必然会影响到模型的分类性能。
发明内容
为此,本发明提供一种基于多特征学习的网络加密流量分类方法及系统,能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力。
按照本发明所提供的设计方案,提供一种基于多特征学习的网络加密流量分类方法,包含:
通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室,未经中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110221394.3/2.html,转载请声明来源钻瓜专利网。