[发明专利]基于客户端生成分布式真实网络流量数据集的方法及系统有效
申请号: | 202210814141.1 | 申请日: | 2022-07-11 |
公开(公告)号: | CN115412465B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 束妮娜;祝旭峰;朱童;吴韬;刘春生;王晨;王怀习;杨方 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04L43/0876 | 分类号: | H04L43/0876;H04L9/40;H04L67/1097;H04L67/14;H04L69/16 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 刘长春 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 客户端 生成 分布式 真实 网络流量 数据 方法 系统 | ||
本发明提出了一种基于客户端生成分布式真实网络流量数据集的方法及系统,所述方法由协同服务器、流量捕捉存储模块、映射表查询维护模块、流量标记处理模块组成;该方法通过服务器指挥各客户端开始或停止流量采集、并分发流量类型细分表至各客户端,各客户端结合内核状态查询和流量类型细分表得到五元组与标记的映射表,用于完成网络流量会话流的细分标记,并将数据集分别存储在各客户端。本发明获得的分布式网络流量数据集可以采用联邦学习等方法来使用数据集进行模型训练,可得到网络流量分类模型等成果应用与网络运维管理、安全防护等诸多领域,具有流量标记准确、流量类型多且可扩展、流量数据集动态更新、用户隐私安全性强等优点。
技术领域
本发明属于网络数据分析技术领域,具体涉及一种基于客户端生成分布式真实网络流量数据集的方法及系统。
背景技术
随着近年来互联网的迅速发展,急剧增加的网络流量与有限的网络带宽的矛盾日益突出。网络流量分类作为细分管理流量、改善服务质量的基础,主要分为基于端口的、基于有效负载检测的和基于流量统计特性的流量分类。其中早期发展的基于端口的、基于有效负载检测的流量分类由于网络流量类别的激增以及动态端口、端口混淆和加密技术的发展,准确性越发降低。
基于流量统计特性的流量分类效果很大程度上取决于其采用的网络流量数据集标记的准确性。流量分类面临的一大难题就是获取一个真实的、动态更新的、足够规模的网络流量数据集用于模型训练和效果验证。以往的研究者主要基于集中式模型训练的思路进行,而这要求数据集也应是集中式的。
部分研究者在校园网络或者商业网络的边界路由器上采集流量数据,然后基于端口号或使用深度检测技术对其进行标记,这些数据的精确度取决于端口号和深度检测技术的精确度,其准确率越发降低,还有一些研究团体提出基于主机的流量采集方法,在若干台可控设备上模拟产生流量,并对其进行采集、处理和标记。此类数据的缺点是规模较小,流量种类有限,其训练处理的模型准确率虽高却无法满足当前互联网新应用新流量不断出现、迭代的要求。可以看到传统集中式的流量数据集生成方法存在难以标记和流量规模受限等问题。
网络流量分类面临的一个最明显的障碍是缺乏一个共享的带有标签的流量数据集,用于测试和验证流量分类效果。为了解决这一问题,很多研究人员也做了大量的努力。如Moore等人使用高性能的网络监视器在主干网路由器上采集流量数据集并采用dpi的方法对能够识别的流量进行标记和采集。但这一数据集的标记准确率取决于dpi的准确率,在当前加密技术广泛使用的背景下,这一方法的准确性和适用范围十分有限。Pederson等人基于其控制的计算机终端利用多线程模拟人的操作产生网络流量,并对其进行采集和标记,获得相应的数据集后,再进行模型的训练。这一方法需在可控的环境下使用,参与的终端数量和应用程序都十分受限,无法适应当前爆炸式发展的互联网网络。Gringoli等人研究提出Ground Truth(GT),通过在每个参与主机上允许客户端守护程序从内核中检索产生每个流的应用程序名称并将其发送至远程后端服务器中,结合时间戳和五元组(源IP地址、源端口、目的IP地址、目的端口、传输协议)对在Internet边界路由器上采集的数据流进行标记,从而得到带有准确标签的数据集。但是这一方法需要参与主机与服务器之间进行信息传输,存在安全隐患,且其基于时间同步方法进行标签容易受时间影响出现标记错误的情况。赵彩云等人,通过Sockethook技术获取网络连接信息,并基于NDIS层的IP报文修改技术在与五元组匹配的IP分组的TOS字段上写入应用类型信息,这样从Windows主机发送的每个IP数据包都携带了它们的应用程序信息,收集这些流量可以得到相应的带有准确应用类型标识的流量数据集。但是这些流量的数据包头暴露了主机信息,存在用户隐私泄露的隐患,在大规模应用中,容易出现被黑客利用攻击的风险。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于客户端生成分布式真实网络流量数据集的方法及系统。本发明要解决的技术问题通过以下技术方案实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210814141.1/2.html,转载请声明来源钻瓜专利网。