[发明专利]一种基于多任务学习的实时业务流量分类方法及系统在审
申请号: | 202211028727.1 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115118653A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 石宁;白光伟;郭索眸;钟亮亮 | 申请(专利权)人: | 南京可信区块链与算法经济研究院有限公司 |
主分类号: | H04L45/30 | 分类号: | H04L45/30;H04L47/2441;H04L41/0896;H04L41/147;G06N3/04;G06N3/08 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 朱紫晓;占园 |
地址: | 210031 江苏省南京市中国(江苏)自由*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 实时 业务 流量 分类 方法 系统 | ||
本申请提供一种基于多任务学习的实时业务流量分类方法及系统,通过硬参数共享的多任务学习构建卷积神经网络,基于网络流的时间序列特征,即数据包大小、间隔的时间和数据包的方向进行分类训练,与单任务学习相比引入了带宽和流量用量一同进行训练和输出,通过训练得到的流量分类模型,对实时网络流量数据的业务类型进行预测。本申请适用于实时路由场景中,在不耗费大量算力的情况下,利用少量的流量类别标记样本实现对网络流量的业务类型实时的准确预测,为路由决策提供准确快速的业务类型,同时还能提供流量的带宽需求与流量用量大小,辅助路由决策,为业务感知的QoS路由决策奠定基础。
技术领域
本发明涉及流量分类领域,尤其涉及一种基于多任务学习的实时业务流量分类方法及系统。
背景技术
随着互联网的快速发展,网络应用的类型不断增加,而不同应用对网络流量的需求各不相同,如为低时延需求的应用分配了高带宽线路,可能导致需求高带宽的应用不能正常工作。对小型数据中心与Home Lab用户而言,有限的带宽资源与高昂的带宽费用之间的矛盾加速推进着网络流量业务分类的发展。根据不同用户的需求提供针对性的网络服务,准确、高效的实时业务流量分类技术成为了提高网络服务质量(QoS)的关键一环,实时网络流量业务的分类成为学术界和工业界共同关注的问题。
现有的业务流量分类可分为传统方法与机器学习方法。传统方法包括基于端口、基于载荷和基于主机行为的方法。其中,基于端口的方法是依赖端口号与特定应用的关联端口映射表识别流量。但随着大量基于动态端口的P2P应用的涌现,这一方法的应用领域在逐渐缩小。基于载荷的方法是利用正则表达式等预定义模式对已知流量进行识别,通过更新模式适配新产生的协议。但这一方法在处理加密流量时可行性不足,深层数据包载荷检测(Deep Packet Inspection, DPI)的出现解决了HTTPS的加密流量分类问题,但对处理器的内存有较大的消耗,且无法应对其他加密流量。基于主机行为模式的流量分类方法是通过记录目标主机的IP地址与端口号对后续流量进行指纹匹配实现不同应用流量的分类。这一方法不受加密影响但是由于需要一段时间记录应用行为,无法实现实时分类。经典的机器学习在网络流的应用同样广泛。有监督学习的方法如朴素贝叶斯、支持向量机(SVM)、C4.5等方法;无监督学习方法如K-means等方法,都曾达到了不错的分类效果。然而,在当今高度加密的网络流量环境下,简单、手动特征提取难度逐渐增大以及缺乏高学习能力来捕获更复杂的模式,它们的准确度相对有所下降。
随着深度学习方法在图像分类、语音识别、翻译等各种问题上取得成功,这些方法开始用于流量分类。通过利用堆叠的自动编码器(Stacked AutoEncoder, SAE)实现了对HTTP、SMTP等网络流量的分类,但是在非公开数据集上难以实现。通过将递归神经网络(RNN)和卷积神经网络(CNN)应用于应用级流量识别问题。他们的CNN-LSTM 架构使用源端口、目标端口、数据包大小、TCP 窗口大小和到达间隔时间作为特征,取得了不错的效果,不过这一模型是使用来自ISP的大型数据集实现的。使用统计特征和有效载荷数据对QUIC协议进行流量分类。首先使用随机森林算法的统计特征判断是否为Google Hangout服务,区分出聊天与语音通话服务。对其他类业务,再根据有效负载数据,使用CNN中多类分类的方法来对视频、文件、音乐类流量进行分类,最后在具有1400个特征的数据集上达到了99%的精度。虽然取得了很好的分类效果,但这一方法在第一阶段需要观察整个网络流,在实时分类场景中难以部署。
发明内容
本申请提供了一种基于多任务学习的实时业务流量分类方法及系统,在不耗费大量算力的情况下,利用少量的流量类别标记样本实现对网络流量的业务类型实时的准确预测, 并同时提供对业务流量带宽需求与流量用量的预测,更适用于路由功能中的业务感知场景,解决了对网络流量的业务类型预测准确度低、实时分类场景中难以部署的问题。
第一方面,本申请提供了一种基于多任务学习的实时业务流量分类方法,所述方法包括:
获取流量数据集,所述流量数据集包括多个数据流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京可信区块链与算法经济研究院有限公司,未经南京可信区块链与算法经济研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211028727.1/2.html,转载请声明来源钻瓜专利网。