[发明专利]一种基于序列比对的自适应应用层网络协议报文聚类方法在审

专利信息
申请号: 201610305948.7 申请日: 2016-05-10
公开(公告)号: CN106021361A 公开(公告)日: 2016-10-12
发明(设计)人: 齐维孔;衣龙腾;李明;周钠;刘晓晖 申请(专利权)人: 中国空间技术研究院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62
代理公司: 中国航天科技专利中心11009 代理人: 陈鹏
地址: 100194 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于序列比对的自适应应用层网络协议报文聚类方法,首先对报文进行划分得到各个报分词文序列,然后根据偏移、宽度、语义、类型、数据内容计算各个报分词文序列中分词的相似度,并使用位置和距离对分析相似度进行修正,进而得到各个报文分析序列的相似度,最后计算多个聚类数量下的聚类有效性评价指标,将聚类有效性评价指标最大值对应的聚类作为聚类结果。本发明与现有技术相比,通过综合考察分词的多个属性来对报文分词的相似程度进行比对,改善了以往序列比对中元素的比较仅考虑数值的片面性,能够更加全面准确地判断网络报文中分词的相似性,从而提高整体分析的性能。
搜索关键词: 一种 基于 序列 自适应 应用 网络 协议 报文 方法
【主权项】:
一种基于序列比对的自适应应用层网络协议报文聚类方法,其特征在于包括如下步骤:(1)获取需要进行报文聚类的报文,分别对各个报文进行划分得到分词,进而得到各个报文对应的报文分词序列;所述的分词为报文中的各个字段;(2)从步骤(1)得到的报分词文序列中任意选择两个,分别记为Tm、Fn,计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于偏移的相似度scoreP(Tm[i],Fn[j]).o为scoreP(Tm[i],Fn[j]).o=0Tm[i].o≠Fn[j].o1+addweightTm[i].o=Fn[j].o]]>其中,Tm[i].o=Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词均包括偏移,Tm[i].o≠Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词不均包括偏移,i=1,2,3…m,j=1,2,3…n,m为报文分词序列Tm中分词的个数,n为报文分词序列Fn中分词的个数,Tm.l为报文分词序列Tm的长度,Fn.l为报文分词序列Fn的长度;所述的偏移为分词首位到当前报文分词序列头部的距离;(3)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于宽度的相似度scoreP(Tm[i],Fn[j]).w为scoreP(Tm[i],Fn[j]).w=0Tm[i].w≠Fn[j].w1+addweightTm[i].w=Fn[j].w]]>其中,Tm[i].w=Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度相同,Tm[i].w≠Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度不同;所述的宽度为分词的长度;(4)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于语义的相似度scoreP(Tm[i],Fn[j]).s为scoreP(Tm[i],Fn[j]).s=0Tm[i].s≠Fn[j].s1+addweightTm[i].s=Fn[j].s]]>其中,Tm[i].s=Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义相同,Tm[i].s≠Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义不同;所述的语义为分词的含义;(5)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于类型的相似度scoreP(Tm[i],Fn[j]).t为scoreP(Tm[i],Fn[j]).t=0Tm[i].t≠Fn[j].t1+addweightTm[i].t=Fn[j].t]]>所述的类型为分词类型,其中,分词类型包括文本、二进制,Tm[i].t=Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型相同,Tm[i].t≠Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型不同;(6)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于数据内容的相似度scoreP(Tm[i],Fn[j]).d为scoreP(Tm[i],Fn[j]).d=0Tm[i].d≠Fn[j].d1+addweightTm[i].d=Fn[j].d]]>所述的数据内容为分词的取值;其中,Tm[i].d=Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容相同,Tm[i].d≠Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容不同;(7)计算得到报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreP(Tm[i],Fn[j])为scoreP(Tm[i],Fn[j])=scoreP(Tm[i],Fn[j]).o+scoreP(Tm[i],Fn[j]).w+scoreP(Tm[i],Fn[j]).s+scoreP(Tm[i],Fn[j]).t+scoreP(Tm[i],Fn[j]).d;(8)分别计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相对位置dis(Tm[i],Fn[j])=|Tm[i].o‑Fn[j].o|,进而计算得到修正后的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreD(Tm[i],Fn[j])为scoreD(Tm[i],Fn[j])=scoreP(Tm[i],Fn[j])*(1-dis(Tm[i],Fn[j])10)0≤dis(Tm[i],Fn[j])≤100dis(Tm[i],Fn[j])>10;]]>(9)将scoreD(Tm[i],Fn[j])作为最终的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度score(Tm[i],Fn[j]),重复步骤(2)‑步骤(8)得到各个报文分词序列中各个分词的相似度;(10)计算报文分词序列Ti与报文分词序列Fj的相似度MS[i,j]为MS[i,j]=0i=0orj=0max(MS[i-1,j-1]+score(Tm[i],Fn[j])),MS[i-1,j],MS[i,j-1]i≠0andj≠0]]>其中,i的初值为1,j的初值为1,Ti为包括报文分词序列Tm中第e个分词的报文分词序列,e=1,2,3…i;(11)i=i+1,重复步骤(10),直至i=m;(12)j=j+1,重复步骤(10)‑步骤(11),直至j=n,得到报文分词序列Tm与报文分词序列Fn的相似度MS[m,n],从而得到各个报文分词序列间的相似度;(13)根据步骤(12)得到的各个报文分词序列间的相似度,对各个报文分词序列进行聚类,得到不同的报文序列聚类,并记为C1,C2,…,Ck,其中,k为聚类个数,k=1,2,3…g,g为报分词文序列个数;(14)计算聚类有效性评价指标Dunn(k)为Dunn(k)=min1≤i<k{mini<j≤k{δ(Ci,Cj)}}max1≤j≤k{Δ(Cj)}]]>其中,d(Tm,Fn)=min{dis(Tm[i],Fn[j])};(15)选取聚类有效性评价指标Dunn(k)最大的报文序列聚类C1,C2,…,Ck作为聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国空间技术研究院,未经中国空间技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610305948.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top