[发明专利]一种基于流量高频内容的模式匹配算法及系统有效
申请号: | 202110291361.6 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113065419B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 余翔湛;刘立坤;韦贤葵;史建焘;叶麟;葛蒙蒙;李精卫;石开宇;车佳臻;王久金;冯帅;赵跃;宋赟祖 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/418;G06V30/146;G06V30/19;G06V10/75;G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 韩立岩 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流量 高频 内容 模式 匹配 算法 系统 | ||
1.一种基于流量高频内容的模式匹配算法,其特征在于,包括以下步骤:
S1.创建自动机;
S1.1.根据模式集构建自动机,首先创建根节点;
S1.2.按字符顺序输入模式,输入下一个字符,如果不存在该字符的边,则执行步骤S1.3,否则,执行步骤S1.4;当所有模式的所有字符都插入到自动机中,执行步骤S1.5,所述字符为流量里包含的字符;
S1.3.创建新节点,设置边值为扫描字符,返回步骤S1.2;
S1.4.自动机状态沿着该边跳转到下一个节点,返回步骤S1.2;
S1.5.深度遍历自动机,给每个节点添加失败指针;
S1.6.提取高频内容的所有模式的首字符,去掉重复字符,形成映射集,每个字符为一个独立节点;
S1.7.遍历自动机,找到映射集字符,当边值与映射集字符相同,则将当前节点与映射集字符关联;
S1.8.映射集每个字符关联高频内容,形成高频内容集,通过计算哈希值代表高频内容,n个字符对应n个高频内容集;
S1.9.每个高频内容集计算哈希值并存储;
S1.10.高频内容与自动机关联,自动机扫描高频内容,遍历到最深的节点作为高频内容命中后返回自动机的状态节点;
S2.自动机扫描;
S2.1.将流量解析后的数据输入到自动机中;
S2.2.扫描当前字符,在映射集中搜索当前字符,如果没有找到,执行下一步骤,否则执行步骤S2.4;如果当前字符是待扫描字符串的结尾字符,扫描终止;
S2.3.当前字符扫描完成自动机跳转到下一个字符,执行步骤S2.2;
S2.4.根据映射集字符选择对应的高频内容集,以哈希长度为窗口计算待匹配字符串哈希值,与高频内容哈希值比较,如果不匹配则返回到自动机当前节点,执行步骤S2.2,如果匹配则执行下一步骤;
S2.5.判断字符串是否满足判断条件,当满足判断条件时,跳转到保存在高频内容中的自动机节点,执行步骤S2.2,当不满足判断条件时执行下一步骤;假设当前字符为映射集中的pi,下标表示字符在待扫描字符串中的位置,对应的高频内容的窗口大小为k,自动机继续扫描待匹配字符串,直到扫描字节pi+j,其在AC自动机的深度小于或等于j时,满足判断条件;
S2.6.自动机扫描下一个字符,如果已经是高频内容结尾,执行步骤S2.2,否则执行步骤S2.5。
2.根据权利要求1所述的一种基于流量高频内容的模式匹配算法,其特征在于,步骤S2.4所述映射集具体是由高频内容集合中所有字符串的第一个字符去重后构成的集合。
3.根据权利要求2所述的一种基于流量高频内容的模式匹配算法,其特征在于,步骤S2.4所述高频内容集生成方法为:设置高频内容集设置重复字符串p的阈值T;在一定时间t内,统计输入流量中重复字符串p1,p2,...pk出现次数n1,n2,...nk,当nj≥T,1≤j≤k时,将pj添加到高频内容集中PUHC=PUHC∪pj。
4.根据权利要求1所述的一种基于流量高频内容的模式匹配算法,其特征在于,步骤S2.4所述以哈希长度为窗口计算待匹配字符串哈希值,用多项式函数计算待匹配字符串的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110291361.6/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法