[发明专利]一种基于流量高频内容的模式匹配算法及系统有效
申请号: | 202110291361.6 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113065419B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 余翔湛;刘立坤;韦贤葵;史建焘;叶麟;葛蒙蒙;李精卫;石开宇;车佳臻;王久金;冯帅;赵跃;宋赟祖 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/418;G06V30/146;G06V30/19;G06V10/75;G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 韩立岩 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流量 高频 内容 模式 匹配 算法 系统 | ||
本发明提出了一种基于流量高频内容的模式匹配算法及系统,涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机,将当前扫描字符通过映射集与高频内容集进行匹配;映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时,执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题,从而提升匹配效率。
技术领域
本申请涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。
背景技术
企业网关的NIDS检测流量中,大量HTTP流量内含有很多重复内容,包括完全重复和部分重复。完全重复是指整个字符串多次出现,像stylesheet(如,html,head,/style),而部分重复是子字符串,例如共享的html代码。另外,来自同一个互联网内容提供商的流量非常相似,相同的html框架,类似的文件。
模式匹配的经典算法是AC算法,AC算法是基于前缀搜索的自动机算法,使用前缀来建立一个有穷状态自动机(DFA),利用这个自动机来对文本进行匹配扫描,找到文本中和模式集合完全相同的匹配信息。AC算法包括自动机和自动机扫描过程两部分,其中自动机包括goto表、Fail表、output表,goto表为状态跳转记录,fail为失败函数记录,output为命中模式记录;自动机扫描的过程是从左往右扫描,自动机从根节点开始,扫描一个字符,如果当前状态接收该字符,则跳转到下一个状态,如果不接收该字符,则根据fail表跳转到失效状态,继续扫描,直到文本全部扫描完成。
AC算法需要逐字符进行扫描,算法复杂度为O(n),忽略了流量中重复内容的特性,匹配性能低。
发明内容
为解决现有技术中存在的忽略了流量中重复内容的特征的技术问题,本发明提供了一种基于流量高频内容的模式匹配算法及系统。
一种基于流量高频内容的模式匹配系统,包括AC自动机、映射模块和UHC匹配模块;所述UHC匹配模块和AC自动机之间通过映射模块建立通讯,所述映射模块由多个映射集组成;所述UHC匹配模块创建与映射集对应的多个子集;所述AC自动机用于扫描文本,所述映射模块用于匹配高频内容,所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。
一种基于流量高频内容的模式匹配算法;包括以下步骤:
S1.创建自动机;
S1.1.根据模式集构建自动机,首先创建根节点;
S1.2.按字符顺序输入模式下一个字符,如果不存在该字符的边,则执行步骤S1.3,否则,执行步骤S1.4;当所有模式的所有字符都插入到自动机中,执行步骤S1.5;
S1.3.创建新节点,设置边值为扫描字符,返回步骤S1.2;
S1.4.自动机状态沿着该边跳转到下一个节点,返回步骤S1.2;
S1.5.深度遍历自动机,给每个节点添加失败指针;
S1.6.提取高频内容的所有模式的首字符,去掉重复字符,形成映射集,每个字符为一个独立节点;
S1.7.遍历自动机,找到映射集字符,当边值与映射集字符相同,则将当前节点与映射集字符关联;
S1.8.映射集每个字符关联高频内容,形成高频内容集,通过计算哈希值代表高频内容,n个字符对应n个高频内容集;
S1.9.每个高频内容集计算哈希值并存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110291361.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法