[发明专利]一种模糊检索的方法及装置无效
申请号: | 201010624233.0 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102541960A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 童征宇;闫进兵;徐剑波 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模糊 检索 方法 装置 | ||
技术领域
本发明涉及检索技术,特别涉及一种模糊检索的方法及装置。
背景技术
目前,检索技术已经得到了广泛的使用,逐渐成为生活、工作中不可或缺的一部分。在全文检索系统的使用过程中,经常遇到以词组、短句等方式提交的检索请求,这些检索请求会被划分为多个分词,然后在索引中进行检索,以查找同时包含这些分词的检索词,以及检索词在文档中的位置关系满足要求的文档,这样的检索请求被称为短语检索。
短语检索分为两类,精确短语检索和间隔短语检索。所谓精确短语检索,是要求检索词之间的位置关系与原始检索请求中一致,包括相互之间的顺序一致,以及位置差一致;而所谓间隔短语检索,则是在精确短语检索基础上放松对位置差的要求,只要求相互之间的顺序一致,而位置差可以大于原始检索请求中的位置差。间隔短语检索的命中结果集合包含了精确短语检索的命中结果集合。
然而,现有的这两种短语检索方式都存在一个相同的缺陷,即要求命中文档中要包含全部的检索词,从而实现完整地匹配。在检索较短的短语时,上述两种短语检索方式均可以得到相应的命中结果,然而,在检索较长短语时,采用上述两种短语检索方式就会存在以下问题:相关文档中可能仅命中了部分检索词,而其他部分的检索词存在一定差异,那么该文档将被认为不相关而被排除,这样,便降低了短语检索的查全率。
发明内容
本发明实施例提供一种模糊检索的方法及装置,用于提高短语检索的查全率。
本发明实施例提供的具体技术方案如下:
一种模糊检索的方法,包括:
对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;
确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及K的取值,获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;
分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。
一种用于模糊检索的装置,包括:
划分单元,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;
第一处理单元,用于获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;
用于确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及K的取值,获取包含不同检索分词数目大于等于K的候选文档;
第二处理单元,用于分别针对获得的各候选文档进行检索分词位置匹配检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。
本发明实施例中,提供了一种模糊检索方法,允许目标文档只包含部分检索分词,相较于用户输入的检索关键词划分得到的检索分词,目标文档中最终包含的检索分词之间保持顺序的一致,而位置差可以不局限于原始用户检索请求中包含的各检索分词的位置差,这样可以选中更多的与检索请求相关的目标文档,从而提高了检索查全率。
附图说明
图1为本发明实施例中检索装置功能结构示意图;
图2为本发明实施例中模糊检索流程示意流程图;
图3为本发明实施例中模糊检索流程中DocID匹配流程示意图;
图4为本发明实施例中模糊检索流程中位置匹配流程示意图。
具体实施方式
本发明实施例中,为了提高短语检索时的查全率,设计了一种模糊检索的方法,即将用户输入的检索关键词进行分词划分后,针对得到的各检索分词,只要某文档包含的检索分词数量超过预设的门限值K,且位置关系满足要求,就视该文档为目标文档,算作一次命中,这样,可以有效提高检索查全率。
下面结合附图对本发明优选的实施方式进行详细说明。
参阅图1所示,本发明实施例中,用于进行模糊短语检索的装置(以下称为检索装置)包括划分单元10、第一处理单元11和第二处理单元12,其中,
划分单元10,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;
第一处理单元11,用于获取包含不相同的检索分词的数目大于等于K的候选文档;此操作称为DocID匹配操作,具体实现方式在后续流程中进行详细介绍。
第二处理单元12,用于分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档;此操作称为位置匹配操作,具体实现方式在后续流程中进行详细介绍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010624233.0/2.html,转载请声明来源钻瓜专利网。