[发明专利]一种关键词匹配方法和系统有效
申请号: | 200710175751.7 | 申请日: | 2007-10-11 |
公开(公告)号: | CN101140593A | 公开(公告)日: | 2008-03-12 |
发明(设计)人: | 谭建龙;刘燕兵;刘萍;郭莉 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 匹配 方法 系统 | ||
1.一种关键词匹配方法,包含如下步骤:
1)读入关键词文件;
2)统计关键词个数;
3)设置多个过滤散列表的掩码或大小并设置一个校验散列表的掩码或大小;
4)根据所述关键词、所述过滤散列表掩码或大小和所述校验散列表掩码或大小构造该过滤散列表和该校验散列表;
5)根据所述过滤散列表和校验散列表对输入的文本进行扫描匹配。
2.如权利要求1所述的方法,其特征在于所述步骤4)进一步包含如下步骤:
1)选择从所述关键词每个字节中抽取的位数;
2)初始化所述过滤散列表和所述校验散列表;
3)根据所述从关键词每个字节抽取位数内的内容、所述过滤散列表掩码或大小和所述校验散列表掩码或大小,构造该过滤散列表和该校验散列表。
3.如权利要求2所述的方法,其特征在于所述步骤3)采用将所述关键词变换为一个不超过过滤散列表大小的无符号数值的函数构造所述过滤散列表。
4.如权利要求1所述的方法,其特征在于所述步骤5)进一步包含如下步骤:
1)读取所述文本数据;
2)依据当前文本数据计算过滤散列值,依该值判断该数据是否可能与关键词匹配;
3)如果可能匹配,计算校验散列表的散列值,进而对该文本进行校验。
5.如权利要求4所述的方法,其特征在于所述步骤2)采用递推方式计算过滤散列值。
6.如权利要求4所述的方法,其特征在于所述步骤3)后包含如下步骤:当匹配成功的关键词出现时,记录、统计和存储该关键词索引号、出现位置等信息。
7.一种关键词匹配系统,包含:
关键词集合规范化装置,其用于读入关键词文件,统计关键词个数,设置多个过滤散列表的掩码或大小并设置一个校验散列表的掩码或大小;
关键词集合预处理装置,其用于根据所述关键词集合规范化装置读入的关键词、所述过滤散列表掩码或大小和所述校验散列表掩码或大小构造该过滤散列表和该校验散列表;
扫描匹配装置,其根据所述关键词集合预处理装置构造的过滤散列表和校验散列表对输入的文本进行扫描匹配。
8.如权利要求7所述的装置,其特征在于所述关键词集合预处理装置进一步包含如下装置:
选择从所述关键词每个字节中抽取的位数的装置;
初始化所述过滤散列表和所述校验散列表的装置;
根据所述从关键词每个字节抽取位数内的内容、所述过滤散列表掩码或大小和所述校验散列表掩码或大小,构造该过滤散列表和该校验散列表的装置。
9.如权利要求7所述的装置,其特征在于所述扫描匹配装置进一步包含如下装置:
读取所述文本数据的装置;
依据当前文本数据计算过滤散列值,依该值判断该数据是否可能与关键词匹配的文本数据过滤装置;
如果可能匹配,计算校验散列表的散列值,对该文本进行校验的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710175751.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件栅极的制造方法
- 下一篇:网板