[发明专利]基于闭合频繁项挖掘的未知协议报文聚类方法和系统在审
申请号: | 202011266863.5 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112367325A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 洪征;李毅豪;林培鸿 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N3/08;G06N3/04;G06K9/62;G06F40/289;G06F40/216 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 闭合 频繁 挖掘 未知 协议 报文 方法 系统 | ||
本发明公开了一种基于闭合频繁项挖掘的未知协议报文聚类方法和系统,将目标协议的数据报转换成报文,进而将报文划分成不同类型。对报文进行分词;根据分词及其频繁度,挖掘报文中的闭合频繁项。在此基础上,依据闭合频繁项对报文进行向量化,而后使用t‑sne算法对报文向量进行降维处理。最后,根据报文的向量信息,利用自组织映射神经网络对报文进行聚类。本发明适用于协议规范未知的网络通信协议,采用协议报文中的闭合频繁项作为特征对报文进行聚类,解决了传统序列比对方法应用于报文聚类时准确性低的缺点,具有通用性强、聚类准确性高的优势。
技术领域
本发明涉及一种网络通信报文的聚类方法,具体涉及一种基于闭合频繁项挖掘的未知协议报文聚类方法和系统,属于网络技术领域。
背景技术
网络协议是为在计算机网络中进行数据交换而建立的规则、标准或者约定的集合。网络协议是计算机网络中不可替代的重要组成部分,它规范了网络实体之间的通信过程。网络管理、流量监控、漏洞挖掘、入侵检测等网络安全应用都依赖于协议规范。然而,由于商业原因或私人原因,大量协议的规范信息并没有公开,除此之外还有许多恶意软件也使用自定义的协议进行通信。这些协议都属于未知协议。
协议逆向工程是指在不依赖协议描述的情况下,通过对协议实体的网络输入输出、系统行为和指令执行流程进行监控和分析,提取协议语法、语义和同步信息的过程。协议逆向工程是获得未知协议的协议规范信息的主要方法。
对网络报文进行聚类,将同种类型的协议报文聚集在一起,是协议逆向过程中的一个重要环节。在真实网络环境中,各种网络协议的通信报文交织在一起,且一种网络协议通常包含众多的报文类型,这给协议逆向分析带来了巨大挑战。因此,在进行协议逆向时,往往必须先对网络中的通信报文进行聚类,使同种类型的报文聚合成簇。在此基础上进行分析,降低协议逆向的难度,提升逆向分析结果的准确率。
每种网络协议通常都会包含多种报文类型,例如在HTTP协议中,有“GET”类型的报文和“POST”类型的报文。对于协议规范已知的协议,可以利用协议特征进行报文聚类,将同种类型的报文聚集在一起,实施起来相对容易。但是如果协议规范未知,则报文聚类并不容易。本发明主要聚焦协议规范未知的通信协议的报文聚类问题。
未知协议报文聚类需要考虑如何在没有协议先验知识的情况下,将相同类型的报文聚合在一起。一种网络协议往往包含多种报文类型,本发明旨在将捕获的网络协议报文聚合成多个簇,其中每个簇中的报文对应于协议的一种报文类型。
PI项目(Protocol Information Project)是最早的一个自动化协议逆向项目,它将生物信息学中的序列比对算法应用于衡量报文相似性,根据相似性建立报文相似性矩阵,然后使用非加权成对群算数平均法对报文进行聚类。然而,使用基于序列比对算法衡量报文相似性,然后对报文聚类的方法,不能发现局部差异导致的报文类型的不同。例如,网络中捕捉到SMTP协议的两条报文:“HELO crow.eyrie.af.mil”和“EHLOcrow.eyrie.af.mil”分别表示不需要用户认证的连接方式和需要用户认证的连接方式。由于“HELO”和“EHLO”的局部微小差异,导致了报文类型的不同。使用基于序列比对算法的聚类会因为察觉不出局部微小差异而导致聚类结果准确率较低的情况。
Siyu Tao等研究人员利用Needle-Wunsch算法衡量报文的相似性,使用轮廓系数指导的K-means聚类算法对报文进行聚类。这种聚类方法不需要知道K-means聚类算法中K的取值,因为通过轮廓系数指导能够自动选取最优K值。但是,这种聚类方法同PI项目一样,由于使用序列比对算法,难以发现报文微小差异导致的报文类型不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011266863.5/2.html,转载请声明来源钻瓜专利网。