[发明专利]一种基于语义分析的R+1类应用层协议识别方法与装置有效
申请号: | 201611258902.0 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106850338B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 何宁宁;刘元安;胡鹤飞 | 申请(专利权)人: | 西可通信技术设备(河源)有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06K9/62;H04L29/06;H04L29/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李阳;于洁 |
地址: | 517000 广东省河源市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 应用 协议 识别 方法 装置 | ||
本发明公开了一种基于语义分析的R+1类应用层协议识别方法与装置包括:从训练数据包中提取分类特征;将训练数据包的分类特征训练分类器;从待识别数据包中提取分类特征;根据待测数据包的分类特征,使用分类器判断待测数据包使用的通信协议是否为目标协议,若是目标协议则进一步判断是何种目标协议。本发明能够使用一个特征提取模型和一个分类器,一次性判决出多种目标协议与非目标协议的数据包,提高了协议判决的效率与精确性。
技术领域
本发明涉及机械测试领域,特别地,涉及一种基于语义分析的R+1类应用层协议识别方法与装置。
背景技术
现有基于语义分析的特征提取方法能有效地识别出单个目标协议中的协议特征,其中,利用语义消息将LDA模型应用在协议签名识别中,无须协议先验知识的情况下即可将单个目标协议从混杂原始数据流中识别出来,准确性较高。
在进行LDA提取协议特征之前,需要对原始数据包进行分割,现有N-Gram模型对原始网络数据包有效载荷进行预处理既适用于文本协议,也适用于二进制协议,具有较好的系统的通用性。
现有基于语义分析的协议识别方法是一种二类分类方法,而现实场景往往是多种协议判决问题,若将现有方法应用到多类问题中,存在如下问题:
第一,若要对R种目标协议进行识别,需要建立对应R个特征提取模型和R个分类器,在线上识别时需要经过R次判决,效率低下。
第二,在实际场景中,往往存在未经过训练的非目标协议,而现有分类器只考虑了R种目标协议的判决策略,若未对网络中的非目标协议进行过滤,非目标协议将会被当成目标协议划分到某类目标协议中,进而降低了该类协议的识别准确性。
针对现有技术中的上述问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提出一种基于语义分析的R+1类应用层协议识别方法与装置,能够使用一个特征提取模型和一个分类器,一次性判决出多种目标协议与非目标协议的数据包,提高了协议判决的效率与精确性。
基于上述目的,本发明提供的技术方案如下:
本发明实施例提供了一种基于语义分析的R+1类应用层协议识别方法,包括:
从训练数据包中提取分类特征;
将训练数据包的分类特征训练分类器;
从待识别数据包中提取分类特征;
根据待识别数据包的分类特征,使用分类器判断待识别数据包使用的通信协议是否为目标协议,若是目标协议则进一步判断是何种目标协议。
在一些实施方式中,所述从训练数据包与待识别数据包中提取分类特征包括:
对数据包进行预处理,生成N-gram序列,一个数据包对应一个N-gram序列;
使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布,其中特征字空间为R种目标协议的特征字集合;
将所有N-gram序列的多项概率分布作为对应数据包的分类特征。
在一些实施方式中,所述对数据包进行预处理,生成N-gram序列为:将每个数据包中的字符以N个字符为长度连续分割,每个数据包作为一个独立的N-gram序列。
在一些实施方式中,所述使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布包括:
确定每个N-gram序列中的特征字与N-gram词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西可通信技术设备(河源)有限公司,未经西可通信技术设备(河源)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611258902.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有轨电车的车辆调度方法
- 下一篇:数据通信的方法、装置及系统