[发明专利]一种基于序列比对的自适应应用层网络协议报文聚类方法在审
申请号: | 201610305948.7 | 申请日: | 2016-05-10 |
公开(公告)号: | CN106021361A | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 齐维孔;衣龙腾;李明;周钠;刘晓晖 | 申请(专利权)人: | 中国空间技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 中国航天科技专利中心11009 | 代理人: | 陈鹏 |
地址: | 100194 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于序列比对的自适应应用层网络协议报文聚类方法,首先对报文进行划分得到各个报分词文序列,然后根据偏移、宽度、语义、类型、数据内容计算各个报分词文序列中分词的相似度,并使用位置和距离对分析相似度进行修正,进而得到各个报文分析序列的相似度,最后计算多个聚类数量下的聚类有效性评价指标,将聚类有效性评价指标最大值对应的聚类作为聚类结果。本发明与现有技术相比,通过综合考察分词的多个属性来对报文分词的相似程度进行比对,改善了以往序列比对中元素的比较仅考虑数值的片面性,能够更加全面准确地判断网络报文中分词的相似性,从而提高整体分析的性能。 | ||
搜索关键词: | 一种 基于 序列 自适应 应用 网络 协议 报文 方法 | ||
【主权项】:
一种基于序列比对的自适应应用层网络协议报文聚类方法,其特征在于包括如下步骤:(1)获取需要进行报文聚类的报文,分别对各个报文进行划分得到分词,进而得到各个报文对应的报文分词序列;所述的分词为报文中的各个字段;(2)从步骤(1)得到的报分词文序列中任意选择两个,分别记为Tm、Fn,计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于偏移的相似度scoreP(Tm[i],Fn[j]).o为scoreP(Tm[i],Fn[j]).o=0Tm[i].o≠Fn[j].o1+addweightTm[i].o=Fn[j].o]]>其中,Tm[i].o=Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词均包括偏移,Tm[i].o≠Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词不均包括偏移,i=1,2,3…m,j=1,2,3…n,m为报文分词序列Tm中分词的个数,n为报文分词序列Fn中分词的个数,Tm.l为报文分词序列Tm的长度,Fn.l为报文分词序列Fn的长度;所述的偏移为分词首位到当前报文分词序列头部的距离;(3)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于宽度的相似度scoreP(Tm[i],Fn[j]).w为scoreP(Tm[i],Fn[j]).w=0Tm[i].w≠Fn[j].w1+addweightTm[i].w=Fn[j].w]]>其中,Tm[i].w=Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度相同,Tm[i].w≠Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度不同;所述的宽度为分词的长度;(4)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于语义的相似度scoreP(Tm[i],Fn[j]).s为scoreP(Tm[i],Fn[j]).s=0Tm[i].s≠Fn[j].s1+addweightTm[i].s=Fn[j].s]]>其中,Tm[i].s=Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义相同,Tm[i].s≠Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义不同;所述的语义为分词的含义;(5)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于类型的相似度scoreP(Tm[i],Fn[j]).t为scoreP(Tm[i],Fn[j]).t=0Tm[i].t≠Fn[j].t1+addweightTm[i].t=Fn[j].t]]>所述的类型为分词类型,其中,分词类型包括文本、二进制,Tm[i].t=Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型相同,Tm[i].t≠Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型不同;(6)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于数据内容的相似度scoreP(Tm[i],Fn[j]).d为scoreP(Tm[i],Fn[j]).d=0Tm[i].d≠Fn[j].d1+addweightTm[i].d=Fn[j].d]]>所述的数据内容为分词的取值;其中,Tm[i].d=Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容相同,Tm[i].d≠Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容不同;(7)计算得到报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreP(Tm[i],Fn[j])为scoreP(Tm[i],Fn[j])=scoreP(Tm[i],Fn[j]).o+scoreP(Tm[i],Fn[j]).w+scoreP(Tm[i],Fn[j]).s+scoreP(Tm[i],Fn[j]).t+scoreP(Tm[i],Fn[j]).d;(8)分别计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相对位置dis(Tm[i],Fn[j])=|Tm[i].o‑Fn[j].o|,进而计算得到修正后的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreD(Tm[i],Fn[j])为scoreD(Tm[i],Fn[j])=scoreP(Tm[i],Fn[j])*(1-dis(Tm[i],Fn[j])10)0≤dis(Tm[i],Fn[j])≤100dis(Tm[i],Fn[j])>10;]]>(9)将scoreD(Tm[i],Fn[j])作为最终的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度score(Tm[i],Fn[j]),重复步骤(2)‑步骤(8)得到各个报文分词序列中各个分词的相似度;(10)计算报文分词序列Ti与报文分词序列Fj的相似度MS[i,j]为MS[i,j]=0i=0orj=0max(MS[i-1,j-1]+score(Tm[i],Fn[j])),MS[i-1,j],MS[i,j-1]i≠0andj≠0]]>其中,i的初值为1,j的初值为1,Ti为包括报文分词序列Tm中第e个分词的报文分词序列,e=1,2,3…i;(11)i=i+1,重复步骤(10),直至i=m;(12)j=j+1,重复步骤(10)‑步骤(11),直至j=n,得到报文分词序列Tm与报文分词序列Fn的相似度MS[m,n],从而得到各个报文分词序列间的相似度;(13)根据步骤(12)得到的各个报文分词序列间的相似度,对各个报文分词序列进行聚类,得到不同的报文序列聚类,并记为C1,C2,…,Ck,其中,k为聚类个数,k=1,2,3…g,g为报分词文序列个数;(14)计算聚类有效性评价指标Dunn(k)为Dunn(k)=min1≤i<k{mini<j≤k{δ(Ci,Cj)}}max1≤j≤k{Δ(Cj)}]]>其中,d(Tm,Fn)=min{dis(Tm[i],Fn[j])};(15)选取聚类有效性评价指标Dunn(k)最大的报文序列聚类C1,C2,…,Ck作为聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国空间技术研究院,未经中国空间技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610305948.7/,转载请声明来源钻瓜专利网。
- 上一篇:艺术品收藏与管理方法及系统
- 下一篇:一种异常信息记录方法及系统