[发明专利]一种基于数据挖掘的未知协议帧序列提取方法及系统在审
申请号: | 201910251520.2 | 申请日: | 2019-03-29 |
公开(公告)号: | CN110061976A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 覃落雨;梁宗闯;周钠;齐维孔;李明;李健珂;王灏宇;衣龙腾;刘晓晖 | 申请(专利权)人: | 中国空间技术研究院 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L1/00 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 胡健男 |
地址: | 100194 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 帧序列 测控数据 数据挖掘 序列提取 哈希表 协议帧 引导码 模糊匹配 时间开销 位置一致 系统空间 项识别 校准 算法 探针 判定 统计 | ||
本发明一种基于数据挖掘的未知协议帧序列提取方法及系统,采用基于随机探针的频繁项识别方法,确定出未知协议测控数据中正确的引导码;然后采用基于模糊匹配的KMP算法,获取引导码在未知协议测控数据中的所有位置;然后获得初步切分帧序列结果,存放在设定的列表StartList中;统计出所有n bit数据及其出现的次数,存放在设定的哈希表中;找到哈希表中出现次数最多的n bit数据,然后获取帧序列头在未知协议的测控数据中出现的位置,校准初步切分帧序列结果,当获取的帧序列头位置与列表StartList中位置一致时,则判定该位置为正确的帧序列头位置,实现了精确帧序列切分,得到精确的帧序列切分结果,大大降低了系统空间开销和时间开销。
技术领域
本发明涉及一种基于数据挖掘的未知协议帧序列提取方法及系统,属于未知协议帧序列提取技术领域。
背景技术
随着网络技术的发展和应用,通信双方为保证通信内容的安全性,开始使用私有的未知协议进行传输,这给网络的安全运行以及监管带来挑战。在电子信息环境中,监听者通过截获目标通信的物理信号,再通过盲解调等手段得到协议未知的比特流数据。如何高效且准确地从比特流数据中提取出未知协议的帧序列,是现有研究的一个重要课题。
通常,在链路协议已知的情况下,通信双方可通过帧序列同步等功能从比特流中提取出帧序列。但是对于信息获取方而言,无法准确地得知所捕获私有链路协议数据的详细帧格式,仅可根据数据同步理论判断该未知协议比特流的构成如图1所示。因此,信息获取方需要通过数据挖掘等手段,从大量的比特流数据中找出标志帧序列起始和结束的引导序列比特流,然后基于此对帧序列进行切分。
引导序列由一系列频繁重复出现的引导码构成,其频繁重复出现的特点是引导序列区别于噪声数据的最显著特征。因此,大部分研究多采用基于 AC(Aho—corasick)算法的频繁序列挖掘方法。详细步骤如下:
首先,挖掘获得比特流数据中频繁出现的引导码;然后,根据分析出的引导码,采用KMP字符串快速匹配算法,切分出引导序列始末位置;最后,根据找出的引导序列始末位置切分出帧序列。
其中,所述KMP算法为一种高效的字符串匹配算法,由D.E.Knuth, J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特—莫里斯—普拉特算法(简称KMP算法)。该算法对于朴素匹配算法的改进是引入了一个跳转表next[],利用这种跳转表结构,该算法对于任何模式和目标序列,都可以在线性时间内完成匹配查找,而不会发生退化,是一个非常优秀的模式匹配算法。
但这类AC算法存在两大问题:
(1)计算开销与时间开销较大。在寻找引导码的过程中,由于该算法需要记录整个比特流中所有可能类型及所有可能长度的频繁项,因此,随着频繁序列长度和总比特流长度的增加,空间复杂度将呈指数增长,且挖掘效率较低,这大大增大了计算开销与时间开销。
(2)无法适应引导序列存在随机噪声的情况。在寻找引导码始末位置的过程中,该算法未考虑引导序列可能出现比特错误的情况,因此,对于存在随机噪声的实际通信信道,在引导序列发生比特错误时,该算法会误判引导序列始末位置,从而导致帧序列的错误切分,降低切分准确率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国空间技术研究院,未经中国空间技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910251520.2/2.html,转载请声明来源钻瓜专利网。