[发明专利]一种基于语义分析的R+1类应用层协议识别方法与装置有效
申请号: | 201611258902.0 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106850338B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 何宁宁;刘元安;胡鹤飞 | 申请(专利权)人: | 西可通信技术设备(河源)有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06K9/62;H04L29/06;H04L29/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李阳;于洁 |
地址: | 517000 广东省河源市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 应用 协议 识别 方法 装置 | ||
1.一种基于语义分析的R+1类应用层协议识别方法,其特征在于,包括:
从训练数据包中提取分类特征;
将训练数据包的分类特征训练分类器;
从待识别数据包中提取分类特征;
根据待识别数据包的分类特征,使用分类器判断待识别数据包使用的通信协议是否为目标协议,若是目标协议则进一步判断是何种目标协议;
所述将训练数据包的分类特征训练分类器包括:
预先指定聚类个数,并随机指定聚类中心的位置;
计算每个分类特征到聚类中心的距离,并选择最近的聚类中心作为簇,更新聚类中心的位置;
重复上一步骤直到聚类中心的位置不再随更新而发生改变;
计算所有训练数据包的分类特征的方差,选择最小值作为分类器的判别依据;
所述若是目标协议则进一步判断是何种目标协议包括:
计算待识别数据包的分类特征到每个聚类中心的距离;
指定待识别数据包的分类特征到聚类中心距离取到最小值的聚类中心所在的簇为新样本;
在新样本中选取预先指定数目的近邻分类特征进行K-近邻法判决;
根据K-近邻法判决结果确定该待识别数据包使用的目标协议。
2.根据权利要求1所述的方法,其特征在于,所述从训练数据包与待识别数据包中提取分类特征包括:
对数据包进行预处理,生成多个N-gram序列;
使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布,其中特征字空间为R种目标协议的特征字集合;
将所有N-gram序列的多项概率分布的集合作为该数据包的分类特征。
3.根据权利要求2所述的方法,其特征在于,所述对数据包进行预处理,生成N-gram序列为:将每个数据包中的字符以3个字符为长度连续分割,每个数据包作为一个独立的N-gram序列。
4.根据权利要求2所述的方法,其特征在于,所述使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布包括:
确定每个N-gram序列中的特征字与N-gram词;
根据某一特征字中每个N-gram词出现的个数与每个N-gram词对应狄利克雷分布的超参数确定该特征字中每个N-gram词出现的概率;
根据该数据包中每个特征字出现的个数与每个特征字对应狄利克雷分布的超参数确定该数据包中每个特征字出现的概率;
根据该特征字中每个N-gram词出现的概率与该数据包中每个特征字出现的概率生成“N-gram序列-特征字”的多项概率分布。
5.根据权利要求2所述的方法,其特征在于,所述根据待识别数据包的分类特征,使用分类器判断待识别数据包使用的通信协议是否为目标协议包括:
计算待识别数据包的分类特征的方差;
比较待识别数据包的分类特征的方差与训练数据包的分类特征的方差的最小值的大小,若待识别数据包的分类特征的方差较大则判定待识别数据包使用的通信协议是目标协议,若待识别数据包的分类特征的方差较小则判定待识别数据包使用的通信协议是非目标协议。
6.根据权利要求5所述的方法,其特征在于,所述K-近邻法使用多数表决法对分类特征进行判决。
7.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西可通信技术设备(河源)有限公司,未经西可通信技术设备(河源)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611258902.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有轨电车的车辆调度方法
- 下一篇:数据通信的方法、装置及系统