[发明专利]一种基于序列比对的自适应应用层网络协议报文聚类方法在审

申请号：	201610305948.7	申请日：	2016-05-10
公开（公告）号：	CN106021361A	公开（公告）日：	2016-10-12
发明（设计）人：	齐维孔;衣龙腾;李明;周钠;刘晓晖	申请（专利权）人：	中国空间技术研究院
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06K9/62
代理公司：	中国航天科技专利中心11009	代理人：	陈鹏
地址：	100194 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于序列比对的自适应应用层网络协议报文聚类方法，首先对报文进行划分得到各个报分词文序列，然后根据偏移、宽度、语义、类型、数据内容计算各个报分词文序列中分词的相似度，并使用位置和距离对分析相似度进行修正，进而得到各个报文分析序列的相似度，最后计算多个聚类数量下的聚类有效性评价指标，将聚类有效性评价指标最大值对应的聚类作为聚类结果。本发明与现有技术相比，通过综合考察分词的多个属性来对报文分词的相似程度进行比对，改善了以往序列比对中元素的比较仅考虑数值的片面性，能够更加全面准确地判断网络报文中分词的相似性，从而提高整体分析的性能。
搜索关键词：	一种基于序列自适应应用网络协议报文方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于序列比对的自适应应用层网络协议报文聚类方法，其特征在于包括如下步骤：(1)获取需要进行报文聚类的报文，分别对各个报文进行划分得到分词，进而得到各个报文对应的报文分词序列；所述的分词为报文中的各个字段；(2)从步骤(1)得到的报分词文序列中任意选择两个，分别记为Tm、Fn，计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于偏移的相似度scoreP(Tm[i],Fn[j]).o为scoreP(Tm[i],Fn[j]).o=0Tm[i].o≠Fn[j].o1+addweightTm[i].o=Fn[j].o]]>其中，Tm[i].o＝Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词均包括偏移，Tm[i].o≠Fn[j].o表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词不均包括偏移，i＝1,2,3…m，j＝1,2,3…n，m为报文分词序列Tm中分词的个数，n为报文分词序列Fn中分词的个数，Tm.l为报文分词序列Tm的长度，Fn.l为报文分词序列Fn的长度；所述的偏移为分词首位到当前报文分词序列头部的距离；(3)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于宽度的相似度scoreP(Tm[i],Fn[j]).w为scoreP(Tm[i],Fn[j]).w=0Tm[i].w≠Fn[j].w1+addweightTm[i].w=Fn[j].w]]>其中，Tm[i].w＝Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度相同，Tm[i].w≠Fn[j].w表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词宽度不同；所述的宽度为分词的长度；(4)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于语义的相似度scoreP(Tm[i],Fn[j]).s为scoreP(Tm[i],Fn[j]).s=0Tm[i].s≠Fn[j].s1+addweightTm[i].s=Fn[j].s]]>其中，Tm[i].s＝Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义相同，Tm[i].s≠Fn[j].s表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词语义不同；所述的语义为分词的含义；(5)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于类型的相似度scoreP(Tm[i],Fn[j]).t为scoreP(Tm[i],Fn[j]).t=0Tm[i].t≠Fn[j].t1+addweightTm[i].t=Fn[j].t]]>所述的类型为分词类型，其中，分词类型包括文本、二进制，Tm[i].t＝Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型相同，Tm[i].t≠Fn[j].t表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词类型不同；(6)计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词关于数据内容的相似度scoreP(Tm[i],Fn[j]).d为scoreP(Tm[i],Fn[j]).d=0Tm[i].d≠Fn[j].d1+addweightTm[i].d=Fn[j].d]]>所述的数据内容为分词的取值；其中，Tm[i].d＝Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容相同，Tm[i].d≠Fn[j].d表示报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词数据内容不同；(7)计算得到报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreP(Tm[i],Fn[j])为scoreP(Tm[i],Fn[j])＝scoreP(Tm[i],Fn[j]).o+scoreP(Tm[i],Fn[j]).w+scoreP(Tm[i],Fn[j]).s+scoreP(Tm[i],Fn[j]).t+scoreP(Tm[i],Fn[j]).d；(8)分别计算报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相对位置dis(Tm[i],Fn[j])＝|Tm[i].o‑Fn[j].o|，进而计算得到修正后的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度scoreD(Tm[i],Fn[j])为scoreD(Tm[i],Fn[j])=scoreP(Tm[i],Fn[j])*(1-dis(Tm[i],Fn[j])10)0≤dis(Tm[i],Fn[j])≤100dis(Tm[i],Fn[j])>10;]]>(9)将scoreD(Tm[i],Fn[j])作为最终的报文分词序列Tm中第i个分词与报文分词序列Fn中第j个分词的相似度score(Tm[i],Fn[j])，重复步骤(2)‑步骤(8)得到各个报文分词序列中各个分词的相似度；(10)计算报文分词序列Ti与报文分词序列Fj的相似度MS[i,j]为MS[i,j]=0i=0orj=0max(MS[i-1,j-1]+score(Tm[i],Fn[j])),MS[i-1,j],MS[i,j-1]i≠0andj≠0]]>其中，i的初值为1，j的初值为1，Ti为包括报文分词序列Tm中第e个分词的报文分词序列，e＝1，2，3…i；(11)i＝i+1，重复步骤(10)，直至i＝m；(12)j＝j+1，重复步骤(10)‑步骤(11)，直至j＝n，得到报文分词序列Tm与报文分词序列Fn的相似度MS[m,n]，从而得到各个报文分词序列间的相似度；(13)根据步骤(12)得到的各个报文分词序列间的相似度，对各个报文分词序列进行聚类，得到不同的报文序列聚类，并记为C1，C2，…，Ck，其中，k为聚类个数，k＝1，2，3…g，g为报分词文序列个数；(14)计算聚类有效性评价指标Dunn(k)为Dunn(k)=min1≤i<k{mini<j≤k{δ(Ci,Cj)}}max1≤j≤k{Δ(Cj)}]]>其中，d(Tm,Fn)＝min{dis(Tm[i],Fn[j])}；(15)选取聚类有效性评价指标Dunn(k)最大的报文序列聚类C1，C2，…，Ck作为聚类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国空间技术研究院，未经中国空间技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610305948.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于序列比对的自适应应用层网络协议报文聚类方法在审

专利文献下载