[发明专利]一种基于网络流量的协议逆向分析方法、系统和电子设备在审

申请号：	202211054114.5	申请日：	2022-08-30
公开（公告）号：	CN115514824A	公开（公告）日：	2022-12-23
发明（设计）人：	孔晴;陶玥欣	申请（专利权）人：	北京邮电大学
主分类号：	H04L69/06	分类号：	H04L69/06;H04L69/22;H04L47/2441;H04L47/2483;G06F40/30;G06K9/62
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	赵秀斌
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网络流量协议逆向分析方法系统电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及协议逆向分析技术领域，尤其涉及一种基于网络流量的协议逆向分析方法、系统和电子设备，方法包括：以第一预设分类标准，将数据包中的多个数据流进行聚类，确定每个数据流的要素的标签；当判断结果为是时，将多个数据流划分为多个第二集合，依次利用Smith‑Waterman算法和Needleman‑Wunsch算法后，得到每个数据流的识别结果，将每个数据流的识别结果进行聚类，得到多个第三集合，将每个第三集合中的每个数据流的识别结果对应的数据流划分为同一集合，得到多个第四集合，进而得到用于被第三方软件识别的协议格式，在避免引入先验知识的情况下，实现字段识别，且确定协议格式的过程效率高、准确率高。

技术领域

本发明涉及协议逆向分析技术领域，尤其涉及一种基于网络流量的协议逆向分析方法、系统和电子设备。

背景技术

目前进行协议逆向分析的技术手段和缺点如下：

1)PI项目：利用了生物信息学中的序列对比相关算法解决协议逆向工程中的问题，其采用局部序列对比算法Smith Waterman算法获取距离矩阵，然后使用UPGMA算法构造系统树，最后采用渐进对比算法执行多序列对比，缺点为：不能分析字段语义，需要依赖人工分析。对于复制的、冗余的协议，其效率和准确率较为低下。

2)Discoverer项目：首次实现了完整的协议格式提取，它采用了逐层解析字段，需要依据格式字段决定自结构的解析方式，提出了以递归聚类为核心的协议逆向方法。主要包括标记和初始化、递归聚类、格式融合三个模块，缺点为：虽然实现了格式提取，但是语义推断人为带入了先验知识，格式识别准确率低、格式分组时引入误差较大。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了一种基于网络流量的协议逆向分析方法、系统和电子设备。

本发明的一种基于网络流量的协议逆向分析方法的技术方案如下：

以第一预设分类标准，将数据包中的多个数据流进行聚类，得到多个第一集合，每个第一集合至少包括一个数据流；

确定每个数据流的语义标签，判断每个第一集合中的每个数据流的字符串，以及判断每个第一集合的每个数据流的语义标签，是否均相同，得到判断结果；

当所述判断结果为是时，以第二预设分类标准，将多个数据流划分为多个第二集合，每个第一集合至少包括一个数据流；

利用Smith-Waterman算法计算每个第二集合中所有数据流之间的相似度，按照相似度从高到低的顺序，对所有第二集合进行排序；

利用Needleman-Wunsch算法，按照所有第二集合的排序，对每个第二集合中的每个数据流进行字段识别，得到每个数据流的识别结果；

使用迭代聚类方法，将每个数据流的识别结果进行聚类，得到多个第三集合，将每个第三集合中的每个数据流的识别结果对应的数据流划分为同一集合，得到多个第四集合；

根据多个第四集合，得到用于被第三方软件识别的协议格式。

本发明的一种基于网络流量的协议逆向分析方法的有益效果如下：

在避免引入先验知识的情况下，实现字段识别，且确定协议格式的过程效率高、准确率高，并适用于复制的、冗余的协议。