[发明专利]一种模糊检索的方法及装置无效
申请号: | 201010624233.0 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102541960A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 童征宇;闫进兵;徐剑波 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模糊 检索 方法 装置 | ||
1.一种模糊检索的方法,其特征在于,包括:
对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;
获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;
分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。
2.如权利要求1所述的方法,其特征在于,K=max(min(N*P,M),2),其中,P为预设的模糊检索需要命中的检索分词数目占检索分词总数目的比例,M为预设的最小命中数目,N为检索分词总数目。
3.如权利要求1或2所述的方法,其特征在于,获取包含不相同的检索分词的数目大于等于K的候选文档,包括:
针对获得的每一个检索分词,分别检索得到包含相应检索分词的候选文档集合;
将在有效的各候选文档集合中依次分别读取的候选文档标识DocID进行匹配操作,其中,在每一次匹配过程中,将当前从有效的各候选文档集合中读取的最小DocID的数目L与K进行比较,若L<K,则确定匹配失败;若L≥K,确定匹配成功,并将所述最小DocID对应的文档记为候选文档。
4.如权利要求3所述的方法,其特征在于,在任意一轮匹配操作中,确定匹配失败时,将当前从各候选文档集合中读取的DocID进行升序排列,获取第K个DocID,在当前读取的各DocID中,将取值小于所述第K个DocID的DocID,在其归属的候选文档集合中向后读取,直到获得大于等于所述第K个DocID的DocID,或者读取完全部DocID,将取值大于等于所述第K个DocID的DocID保持不变,并进入下一轮匹配操作;
在任意一轮匹配操作中,确定匹配成功时,在当前从各候选文档集合中读取的DocID中,将取值最小的DocID,在其归属的候选文档集合中向后读取一位DocID,将取值非最小的DocID保持不变,并进入下一轮匹配操作。
5.如权利要求4所述的方法,其特征在于,任意一个候选文档集合中包含的DocID读取完毕时,将该候选文档集合标记为无效项,并在确定当前有效的候选文档集合数目Y小于K时,结束DocID匹配流程。
6.如权利要求3所述的方法,其特征在于,所述分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档,包括:每获得一个候选文档,便针对该候选文档执行位置匹配。
7.如权利要求6所述的方法,其特征在于,针对任意一个候选文档执行位置匹配时,包括:
确定候选文档中包含的L个检索分词;
基于所述候选文档,分别确定所述L个检索分词对应的位置信息集合,将在有效的各位置信息集合中依次分别读取的位置信息进行匹配操作;
其中,在每一次匹配过程中,将当前从有效的各位置信息集合中读取的位置信息进行任意组合,筛选得到目标匹配序列,所述目标匹配序列为各种组合中长度最长且距离最短的序列,以及将目标匹配序列包含的检索分词数目M与K进行比较,若M≥K,则确定匹配成功,记当前候选文档为目标文档,若M<K,则确定匹配失败。
8.如权利要求7所述的方法,其特征在于,在每一次执行位置匹配操作之前,重新设定各检索分词之间的位置关系,以及基于重新设定的各检索分词之间的位置关系对各位置信息集合中包含的位置信息进行修正。
9.如权利要求7所述的方法,其特征在于,任意一个位置信息集合中包含的位置信息读取完毕时,将该位置信息集合标记为无效项,确定当前有效的位置信息集合数目J小于当前目标匹配序列长度C,或者确定J小于K时,退出位置匹配流程。
10.如权利要求7所述的方法,其特征在于,针对任意一个目标文档,在从各次位置匹配过程得到的目标匹配序列中,筛选出长度最大且距离最小的匹配序列作为最优匹配序列,采用公式计算该目标文档的命中指数,其中,C为最优匹配序列的长度,Distance为最优匹配序列的距离,N是用户输入的检索关键词划分后得到的检索分词的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010624233.0/1.html,转载请声明来源钻瓜专利网。