[发明专利]一种高效网络报文分类方法在审
申请号: | 201710197897.5 | 申请日: | 2017-03-29 |
公开(公告)号: | CN107016080A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 董小明;陈卓;钱萌 | 申请(专利权)人: | 安庆师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙)11548 | 代理人: | 李静 |
地址: | 246133 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 网络 报文 分类 方法 | ||
技术领域
本发明涉及一种高效网络报文分类方法,属于计算机网络技术领域。
背景技术
计算机网络正处于蓬勃发展的时期,网络速度不断提高,用户数量急剧增长,同时,Internet服务也开始由原先的尽力服务(best-effort service)向QoS(quality of service)发展,网络设备(路由器、交换机等)的功能必须由原先单纯的转发分组提升到具有内容知晓(content-awareness)的能力,而分组分类则是其中重要的一环。许多网络关键技术,如虚拟专用网(VPNs)、网络地址转换(NAT)、防火墙、网络入侵检测(IDS)、QoS、拥塞控制、组播等都涉及到分组分类。因此,分组分类速度的快慢、功能的强弱将直接影响到许多网络技术的性能,并且对下一代网络及其服务质量有关键性的影响。并且,分组分类是现今网络研究的重要议题之一。
纵观分类算法的发展趋势,基于算法在时间和空间复杂度上的限制,启发式策略一般具有较快的速度,同时在应用上也具有较好的前景。经典的启发式算法都是对规则头部进行范围切割,在切割中,采取即定的启发式策略,尽量达到规则分布的均衡性,从而能在时间和空间复杂度上更好的折衷平衡。启发式算法的共同点是采取某种策略,以把规则均匀的分布到子集中去,本方案即是根据启发式策略来实现。
发明内容
本发明针对现有的技术问题,提供一种高效网络报文分类方法,目的是使得网络报文更加直观简单易实现,预处理开销小,并具有更佳的效果,拟解决现有技术存在的问题。
为实现上述目的,本发明提供如下技术方案:一种高效网络报文分类方法,其特征在于,该方法采用基于信息熵的决策树算法来实现,具体方法是,在选取规则子集时,确定阀方法是,在多叉层次树中,根据具体规则库,按照熵值特性,从中抽取若干位具有区分性质的位,即选取最大熵值增益的位,将其规则均衡的划分到子集中去,从而确定其所属的规则子集。
进一步,作为优选,基于信息熵的决策树建立的方法具体为:
(i)将全体规则集作为根节点;
(ii)对五元组的每一位,计算其信息熵增益;
(iii)选择熵值增益最大的前n个特征位组合作为决策分支属性;
(iv)把与决策属性处取值相同的规则归于同一子集,作为下一层节点,建立子节点;
(v)若叶子节点中规则数目不大于叶子节点阈值,则划分停止,如果叶子节点中规则数目大于叶子节点阈值,则返回步骤(ii),直至叶子节点中规则数目不大于叶子节点阈值。
进一步,作为优选,在所述步骤(ii)中,在104位中任选n位,有中选择方法,对每一种选择,分别计算信息熵增益值,再在其中选择增益最大的一种作为决策属性,其中,n为给定决策位的数目。
进一步,作为优选,最大熵值增益要求是:规则头部中每一位的取值集合为{0,1,*},将规则均匀的分布到各个Ui中去,可以这样选择:选择min{ 0值个数,1值个数}作为信息熵增益的近似度量,其中,0值个数是规则库中某特定位为0的规则个数,1值个数是规则库中某特定位为1的规则个数。
进一步,作为优选,该方法采用降维的方法,其对每维单独建立Entro-Trie,处理的结果以位向量的形式存放,并以ABV方式聚累增加速度,对每维的结果取与操作得到最终结果。
与现有技术相比,本发明的有益效果是:
本发明基于决策树的分类方法结构简单,易形成规则,效率高,不需额外知识,适用于数据量较大、数据格式多样的情况,尤其对于实时报文分类这种对速度要求较高的系统,采用决策树方法是合理的选择。本发明提出的基于信息熵的决策树算法也是基于启发式策略(为方便表述,以下都称为Entro-Trie算法),是多叉层次树基础上的一种改进,在层次树中,本发明顺序的根据头部位信息来确定其所属的规则子集,这样易形成规则子集划分不均匀的现象,根据对具体规则库的观察,发现若从中抽取几位最具区分意义的位,基于这些位的熵值特性,把它叫做具有较大熵值增益的位,则能够将规则均衡的划分到子集中去,从而减少最坏情况的复杂度。
相比较多叉层次树而言,本发明改进的优点是:
(1)只需选用若干具有较大区分性质的位进行划分,就能将规则均匀分割到各个子集中去,节省了空间。
(2)因为规则在各子集中分布比较均匀,查找时访问内存次数相对固定,加快了平均访问时间,并使访问时间具有有鲁棒性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安庆师范大学,未经安庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710197897.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种消防用耐火线缆
- 下一篇:电力电缆、电力电缆监测装置及系统