[发明专利]互联网流量区分方法有效
申请号: | 201210184211.6 | 申请日: | 2012-06-06 |
公开(公告)号: | CN102685016A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陈贞翔;赵树鹏;于孝美;杨波;孙润元 | 申请(专利权)人: | 济南大学 |
主分类号: | H04L12/56 | 分类号: | H04L12/56 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 丁修亭 |
地址: | 250022 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 流量 区分 方法 | ||
技术领域
本发明涉及一种网络流量分类的获得方法,特别是涉及一种互联网流量的区分方法。
背景技术
互联网流量区分主要是根据网络流量所呈现的特征,例如数据包大小,包间隔时间等,来预测产生该流量的网络应用类型。从而,网络管理员根据分类结果可以对网络资源的使用情况进行监测与控制,并针对提供的服务确保其服务质量。
现有的网络流量区分的实现主要是基于有监督学习的智能方法(对应于监督分类)和基于半监督学习的智能方法(对应于半监督分类)。
其中,基于有监督学习的网络流量区分方法,其实现过程可分为两个阶段:训练阶段和识别阶段。在训练阶段,对大量具有应用类型标签的流量样本进行学习,通过学习获取网络流量分类的经验知识,换句话说,就是根据被所述标签标记的流量样本的特征的学习获得标签的对应产生特征判定应用类型的一组规则,即分类模型。
在识别阶段,就可以对没有应用类型标签的流量,只需根据分类模型对流量的特征划分决策边界,就能得出该流量的应用类型。该方法的优点:在具有应用类型标签的流量样本充足的情况下,分类模型可以获取足够多的知识,能够对没有应用类型标签的流量进行快速、准确的识别。其缺点:在真实的网络环境中受限于应用类型使用的频率使得获取具有准确应用类型标签的流量样本非常困难;该方法的适用性受其训练样本的约束,即需要区分的网络流量与训练分类模型的流量样本之间具有相似性;不能发现新的应用类型,只能对经过训练的应用类型进行识别。
基于半监督学习的网络流量区分方法的实现表现在该方法使用少量的具有应用类型标签的流量数据作为指导信息,对大量的没有应用类型标签的流量进行区分,并能识别具体的应用类型。其实现过程也可分为两个阶段:聚类阶段和映射阶段。在聚类阶段,具有应用类型标签的流量数据作为指导信息约束聚类搜索过程,聚类结束后得到的结果是多个簇的集合。其中每个簇包含的是具有相似性质的多个流量数据,不同的簇间具有较大的差异性。在映射阶段,对于聚类得到的簇信息,根据簇所包含的有应用类型标签的样本对应的应用类型,将簇信息映射到具体的应用类型,即对于该簇所包含的没有应用类型标签的流量样本使用该类型进行标记;对于不存在具有应用类型标签的流量样本的簇,将其所包含的流量样本都映射为新的应用类型。该方法的优势:能够发现新的应用类型。该方法的缺点:其计算的复杂性带来较高的时延和计算的开销。
以上内容主要是互联网流量区分方法描述的内容,那么在线智能识别互联网流量的方法则通常是模拟在线条件对离线数据(即观察所采集的一段时间内的数据)进行分类。这类方法通过将所采集的网络数据,即数据包集合按照数据包的五元组(源IP地址、源端口号、目的IP地址、目的端口号、协议)聚合成不同的网络流(数据包序列),然后抽取这个数据包序列的前几个数据包,作为观察特征的来源,以此来训练并测试分类器,从而模拟在线流量分类。
该方法的缺点:没有在真实的网络环境中实时地完成分类任务,网络状态的变化对分类系统的影响没有被考虑在内,离真实网络环境部署实际的在线流量分类系统存在差距;由于没有应用类型标签的流量数据不知道其具体为哪种应用类型所产生,因此对于分类结果的真实性需要进行验证,然而现有的在线分类技术却缺乏对分类结果真实性的验证。
作为支持性的内容,网络中混合流量的识别,对网络操作者和管理者而言,有至关重要的意义。为此,研究团体就混合流量提出了很多分类算法,如基于端口的分类算法和基于包检测的分类算法。由于越来越多的网络应用使用动态端口号和加密技术来发送数据包,因此随着网络应用中动态端口号和加密技术的逐步流行,使得基于端口号的和基于包检测的分类算法已经失去了有效性。基于机器学习的流量分类方法能够克服这种问题,便成为了研究的重点。但是,基于机器学习的流量分类算法需要具有准确应用类型标记的网络流量数据集来训练分类器和测试分类器。
为了使本领域的技术人员更有利于理解本文中相关的技术手段,在此对其中的某些手段和应用的对象进行一个说明,仅用于相关人员对本文所提出技术方案的延续性理解,不构成以下某些技术手段视为对现有技术的承认。
为调用socket请求流出主机的TCP数据包标记产生该数据包的应用类型标记,需要在主机上安装Socket Hook驱动和NDIS Hook驱动。在网络的边界处使用基于FPGA的流量采集器来采集经过网路边界的数据包,并且把采集的数据包发送到数据处理器。数据处理器首先把得到的数据包根据数据包的五元组(源IP地址、目的IP地址、源端口号、目的端口号和协议)信息整合成流,然后根据不同的需求制作不同的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210184211.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:简化高阶场磁铁
- 下一篇:复杂背景条件下红外弱小目标尺寸自适应估算方法