[发明专利]一种快速内容分析的多关键词匹配方法无效

专利信息
申请号: 200710119845.2 申请日: 2007-08-01
公开(公告)号: CN101359325A 公开(公告)日: 2009-02-04
发明(设计)人: 叶润国;华东明;李博;胡振宇 申请(专利权)人: 北京启明星辰信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市商泰律师事务所 代理人: 毛燕生
地址: 100094北京市海淀区东北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种快速内容分析的多关键词匹配方法。所述发明方法包括预处理阶段和模式匹配阶段。其中,所述的预处理阶段包括关键词特征串裁剪和关键词特征分片集合的构建、基于关键词特征分片集合的Bloom Filte(布隆过滤器)构造,以及原始关键词集合线性表构造,所述关键词匹配阶段包括:依据Bloom Filter实现当前窗口中文本串不与任何关键词特征分片匹配的快速判定;只在判定失败情况下通过字符串比较操作实现与候选关键词的精确匹配;将文本匹配窗口连续多字节快速跳跃。本发明充分利用了待匹配文本与关键词匹配成功概率异常低的特点,可实现大数量关键词场景下的高速匹配,非常适合病毒检测等在线病毒扫描应用。
搜索关键词: 一种 快速 内容 分析 关键词 匹配 方法
【主权项】:
1.一种快速内容分析的多关键词匹配方法,包括预处理阶段和模式匹配阶段,其特征在于包括以下步骤:A)所述预处理阶段包括以下步骤:A1、根据设定的关键词特征串长度,对关键词集合中各关键词进行特征串抽取;A2、根据设定的文本匹配窗口跳跃步长,将各关键词特征串分割为多个指定长度子串,即关键词特征分片;A3、构造一个包含多个散列函数的Bloom Filter结构体,将分割出的所有关键词特征分片映射到Bloom Filter结构体中;A4、构造一个哈希表,将分割出的所有关键词特征分片映射到哈希表各单元中,对于具有哈希值冲突的元素,用链表方式串接起来;A5、构建一个包含所有原始关键词的线性表,在步骤A4中建立的关键词特征分片哈希表的各表项中包含对应原始关键词的索引号;B)所述模式匹配阶段包括以下步骤:B1、设置一个与关键词特征分片等长度的文本匹配窗口,首先将文本匹配窗口与待匹配文本左对齐;B2、以当前文本匹配窗口中文本串为输入,依次调用步骤A3中构造Bloom Filter时选择的散列函数组,并检查散列函数值对应的Bloom Filter位串中比特位值:如果值为0,则直接跳跃到步骤B5执行;如果值为1,则继续调用下一个散列函数;如果所有散列函数对应的Bloom Filter中的比特位均为1,则进入步骤B3;B3、依据文本匹配窗口中当前文本检索关键词特征分片哈希表,如果找到匹配的关键词特征分片表项,则执行步骤B4;如果未找到任何匹配表项,则直接跳跃到步骤B5执行;B4、根据关键词特征分片表项中的索引号从原始关键词线性表读取对应的原始关键词,并与当前匹配窗口处文本串进行全长度字符串比较,如果匹配成功则报告一个成功的关键词匹配事件;继续执行步骤B5;B5、将当前文本匹配窗口向右移动指定跳跃步长,并跳跃到步骤B2继续执行,直至整个文本扫描结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术有限公司,未经北京启明星辰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710119845.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top