[发明专利]一种网络数据特征处理方法、装置、设备及存储介质有效
申请号: | 202110579852.0 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113315721B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 白司特;崔渊博;周忠义;阿曼太;梁彧;傅强;田野;王杰;杨满智;蔡琳;金红;陈晓光 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | H04L47/2475 | 分类号: | H04L47/2475;H04L47/2483;H04L41/14 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 数据 特征 处理 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种网络数据特征处理方法、装置、设备及存储介质,方法包括:获取原始网络数据特征集合;其中,所述原始网络数据特征集合包括至少一个网络应用的至少一个应用特征点;根据所述原始网络数据特征集合从当前网络流量数据中提取每个所述应用特征点匹配的背景流量特征数据;根据所述背景流量特征数据对各所述应用特征点进行特征质量增强处理,得到目标网络数据特征集合。本发明实施例的技术方案能够有效评估量化网络数据特征,从而保证网络数据特征的准确性和唯一性。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种网络数据特征处理方法、装置、设备及存储介质。
背景技术
随着互联网应用的不断增加,大量应用产生的网络流量需要网络设备等基础网络设施进行识别,以便对网络信息进行进一步处理。目前,大量的互联网应用都使用各种协议进行通信,因此针对各种网络协议,来识别使用此协议的网络应用,成为大多网络流量检测设备需要解决的问题。目前,网络应用特征的质量主要体现在两方面:即特征的准确性和误判率。
其中,特征的准确性也可称为必现性。目前相关技术标准均要求特定的网络应用流量出现提取出的特征的概率越接近1越好,既特定的网络应用一定会出现提取出的特征。在评估准确性的指标时,理论上需要两个值支撑,一个是整个互联网上实际产生的目标应用的目标协议的全部个数,可以记为AppProtocolCounterSum,另一个是提取的特征中出现的目标协议个数,可以记为SigProtocolCounter,则准确率为SigProtocolCounter/AppProtocolCounterSum。根据行业要求,准确率的数值应越接近1越好。需要SigProtocolCounter越接近AppProtocolCounterSum越好。但由于相关网络流量设备厂商的工程师在实际调研网络应用特征时,无法获取到SigProtocolCounter以及AppProtocolCounterSum,而只能根据本地实验环境,进行有限次的测试来得出一个很小范围的测试样本,该测试样本的误差可能会很大。人工获取测试样本的量级在几次到几十次的测试数量。即使是自动化的测试,测试样本的量级范围和整个互联网通信数据相比也相差甚远,因此特征准确性的误差较大。
其中,特征的误判率也可以称为唯一性,具体为出现此特征的网络应用是否是被标记的网络应用的概率。目前的技术要求是误判率越接近0越好,既命中提取特征的网络应用一定要是被标记的网络应用。在提取网络应用流量数据的特征应该达到的效果是:特征只能由被标记的特定应用产生,但是产生的这个特征的方法本身,并不具备产生这种唯一性的条件,既无法获取全量互联网的全部数据。由于无法判定特征的唯一性,因此就会存在误判情况,实际与特征相匹配的应用可能存在不是标记应用的情况。因此,如果将匹配到特征的全部网络协议数量记为MatchProtocolCounter,则错误匹配的概率也即误判率具体为:(MatchProtocolCounter-SigProtocolCounter)/MatchProtocolCounter。其中,SigProtocolCounter表示标记应用的数量。根据行业要求,特征的误判率越接近0越好。但同样的问题是,网络流量设备厂商在调研的时候是无法获取MatchProtocolCounter的,因此也就无法获取误判率的实际情况。这种情况下,需要根据主观依据来判断特征的唯一性。例如,包括域名www.A.com的数据认为是只有A应用才会命中,而不会存在误判情况。但由于一个互联网应用在运行过程中实际上会产生很多个域名,其中很多域名即使靠主观判断也是无法判断其是否具有唯一性。
目前,特征发现的机制主要是从本地产生的有限样本中的样本流量,通过人工或者某种自动化的方法提取出特征标识。因为本地产生的流量样本,由于应用动作触发有限,或者某些条件限制,例如VIP账号、特殊级别功能、限定范围非公开网络功能等情况,会造成本地产生的流量样本不全,甚至有些是由于地域原因,无法产生全地域流量。导致由此产生的特征集合也是不全面的。
由此可见,目前相关网络协议数据特征的提取特征中,并没有一个对提取特征的质量进行有效评估量化的方法,难以保证提取特征的准确性和唯一性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110579852.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置