[发明专利]一种基于类敏感特征提取的不均衡网络流量分类方法和系统在审
申请号: | 202111192489.3 | 申请日: | 2021-10-13 |
公开(公告)号: | CN114036357A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李镇;熊刚;郭煜;苟高鹏;石俊峥;夏葳 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 敏感 特征 提取 均衡 网络流量 分类 方法 系统 | ||
本发明涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统。该方法的步骤包括:对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;将重构后的流量特征表示输入分类器以进行网络流量分类。本发明无需任何数据预处理操作,也不需要对特征进行选择,避免了引入噪声或丢失流量信息;本发明可以针对每个类别学习最适合的特征表示,能够有针对性地提高少数类的表现,对不同任务场景所需要的不同初始特征具有鲁棒性。
技术领域
本发明涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统,属于计算机软件技术领域。
背景技术
网络流量分类作为网络管理和网络空间安全的基石,引起了学术界和工业界的广泛关注。随着加密协议的普及,基于端口和深度包检测的网络流量分类技术不再有效,基于机器学习的解决方案成为主流。近年来,出现了很多这方面的研究,提出有效的流量特征和网络结构,并取得了良好的效果。但是,当这些方案应用到现实世界中时,可能会出现性能降级。
一方面,大部分机器学习算法的设计往往是以取得整体的最高精度为目标的,没有考虑类别的分布情况,也就是默认数据集中各类别的样本数量是均衡的。在真实互联网环境中,网络流量往往呈现不均衡分布。流量分类的类别可以是协议、应用、用户行为、是否为恶意等,那么不同的协议、应用或用户行为产生的流量规模必然不同,恶意流量和正常流量的规模差距则更是悬殊。然而,大多数基于机器学习的流量分类方案都没有考虑这两个因素。这导致在面对不均衡的流量分类场景时,会导致预测向多数类偏移,而使少数类的性能下降。
已有研究从三个层面提出了处理流量不均衡的方法。第一个是数据层面,主要是使用通用的数据采样技术,在训练前增加或减少某类的样本数量来重新平衡数据集。这可能会引入噪声或丢失过多的流量样本,从而导致效果不稳定。第二是算法层面,包括集成学习和代价敏感的方法。后者通过为不同类别的样本分配不同的误分类代价来弥补样本数量的差距。但代价设计依赖专家经验,效果难以控制。第三种是特征层面。通过执行变换,使处理后的特征在少数类上可区分度更高,从而缓解不均衡带来的性能下降。该层面的已有研究侧重于特征选择,通过手动设计的度量来选择最佳特征子集。然而,这样的方案通常会丢弃大量“冗余”特征,其中包含潜在的有价值的信息。随着深度学习的兴起,特征提取方法正在成为一种新的趋势,通过设计更有利于少数类特征表达的网络结构来对抗不均衡。但是这方面的研究还比较有限,而且目标场景单一。
发明内容
本发明旨在从特征层面入手,针对已有研究易丢失有效特征、特征表达不充分的问题,提出端到端的不均衡流量分类模型。借助基本的残差网络结构,本发明能够深入挖掘有效特征。为了缓解少数类流量的性能下降,本发明显式地对特征通道之间的相互依赖性进行建模,并学习通道权重。为不同类别生成的特定特征表示极大地增加了类别之间的区分度。除此之外,本发明还从全局角度挖掘有价值的信息,以进一步增强特征表达的鲁棒性。而且,流量向量化模块使其具备了通用性,可以适应不同格式的初始流量特征。
本发明采用的技术方案如下:
一种基于类敏感特征提取的不均衡网络流量分类方法,包括以下步骤:
对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;
采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;
采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;
将重构后的流量特征表示输入分类器,通过分类器进行网络流量分类。
进一步地,所述神经网络采用ResNet网络,并在其基础上做以下改进:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192489.3/2.html,转载请声明来源钻瓜专利网。