[发明专利]基于闭合频繁项挖掘的未知协议报文聚类方法和系统在审
申请号: | 202011266863.5 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112367325A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 洪征;李毅豪;林培鸿 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N3/08;G06N3/04;G06K9/62;G06F40/289;G06F40/216 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 闭合 频繁 挖掘 未知 协议 报文 方法 系统 | ||
1.一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,包括:将获取的数据报转换成报文;将报文分割成各个短序列;根据短序列的出现频次以及设置的频繁度阈值提取出短序列中的频繁项,然后依据闭合属性对频繁项进行筛选,进而获得其中的闭合频繁项;以闭合频繁项为基础,对报文进行向量化表示并对向量进行降维处理获得降维后的报文向量;
针对降维后的报文向量,通过向自组织映射神经网络,依据向量间的距离对报文向量进行聚类,将相同类型的报文向量聚类。
2.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,所述数据报包括通过TCP协议传输的应用层数据报和通过UDP协议传输的应用层数据报;将获取的数据报转换成报文具体包括:对于通过TCP协议传输的应用层数据报,依据TCPFIN标志和TCP SYN标志将一个新的应用层报文与之前的应用层报文分隔开并进行重组,得到完整的应用层报文;
对于通过UDP协议传输的应用层数据报,每个UDP数据报的载荷被视为一个独立的应用层报文。
3.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,将报文分割成各个短序列之前还包括将报文划分为文本型报文、二进制型报文以及包含文本和二进制字符的混合型报文三类;将报文分割成各个短序列的方法包括:
对于二进制型报文与文本型报文,使用n-gram分词方法直接分词,而对于混合型报文,根据预先确定的二进制内容和文本内容的边界,对不同类型的内容进行分词。
4.根据权利要求3所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,使用n-gram分词方法分词时,
5.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,根据短序列的出现频次以及设置的频繁度阈值提取出短序列中的频繁项的过程包括:统计各短序列总出现频次,将短序列总出现频次与短序列总数量的比值作为该短序列的频繁度;如果一个短序列的频繁度超过了设定的频繁度阈值,那么该短序列就是一个频繁项,否则该短序列就不是频繁项。
6.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,依据闭合属性对频繁项进行筛选具体包括:
依次检查每个频繁项是否具有闭合属性,选择满足闭合属性的频繁项构成闭合频繁项集合,其中判定一个集合中的序列A拥有闭合属性的方法为:当且仅当在序列A所在的集合中没有任何一个序列是序列A的超序列,并且该序列的频繁度等于序列A的频繁度,则判定该集合中的序列A拥有闭合属性。
7.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,以闭合频繁项为基础,对报文进行向量化表示并对向量进行降维处理获得降维后的报文向量的具体方法为:
以闭合频繁项集合为基础对每条报文进行向量化表示,如果报文拥有某个闭合频繁项,则向量化过程中将相应的元素置为1;如果报文中没有出现这个闭合频繁项,则向量化过程中将相应的元素置为0;此后,利用t-sne方法对报文向量进行降维,将高维的报文向量转化为二维的报文向量。
8.根据权利要求1所述的一种基于闭合频繁项挖掘的未知协议报文聚类方法,其特征在于,所述自组织映射聚类的过程包括:通过将降维后的报文向量输入自组织映射神经网络,神经网络将发现报文向量的规律和报文向量之间的相互关系;聚类得到的神经网络,每个神经元附近的报文向量的集合被认为是属于同一个簇,代表这些报文向量属于同一种类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011266863.5/1.html,转载请声明来源钻瓜专利网。