[发明专利]构造索引库的方法和设备以及查询方法无效
申请号: | 201010114867.1 | 申请日: | 2010-02-24 |
公开(公告)号: | CN102163199A | 公开(公告)日: | 2011-08-24 |
发明(设计)人: | 王主龙;葛付江;于浩;贾文杰;何楠;王新文;贾晓建 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 潘士霖;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构造 索引 方法 设备 以及 查询 | ||
技术领域
本发明涉及信息处理技术,更具体地,涉及构造索引库的方法和设备以及利用该索引库进行查询的方法。
背景技术
文档信息检索系统需要处理大量的文档数据,建立索引,并提供检索服务。文档信息检索系统的性能指标主要包括检索的效率、准确度和召回率。索引项的选择是影响上述信息检索系统性能指标的一个重要因素。
对于一个信息检索系统而言,召回率和准确度及效率是相互制约的几个方面。例如,单字分词方式具有较好的召回率,但其使检索的效率以及准确度受到影响。
因此,现有的信息检索系统大都采用分词系统,通过牺牲召回率来提高检索的准确度,但是其在大量索引项的情况下检索效率有待提高。
因此,目前仍然需要对信息检索系统的上述性能指标进行改善提高。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的至少一个目的在于提供一种构造索引库的方法和设备以及利用该索引库进行查询的方法,其能够至少克服上述现有技术的部分缺点和不足,以改善提高检索的效率。
本发明的另一个目的是提供相应的计算机程序产品和/或计算机可读存储介质。
为了实现上述目的,根据本发明的一个实施例,提供了一种构造索引库的方法,包括:对文档进行分词处理以获得多个词汇;根据词汇特征将该多个词汇划分为多个词汇子集;以及针对该多个词汇子集的每一个创建一个子索引库以获得多个子索引库,该多个子索引库构成该索引库。
在该构造索引库的方法中,词汇特征可选自词汇长度、词汇类型和词汇频率及其组合。
在该构造索引库的方法中,词汇类型可包括中文汉字、中文词组,英文单词、英文词组、数字或日期。
该构造索引库的方法还可包括:设置该划分步骤中所使用的词汇特征。
该构造索引库的方法还可包括:设置用于该划分步骤中的各个词汇子集的该词汇特征的特征值范围。
为了实现上述目的,根据本发明的另一实施例,提供了一种利用如上所述的方法构造的索引库进行查询的方法,包括:获取查询关键词;判断该查询关键词所属的词汇子集;以及在与该查询关键词所属的词汇子集相对应的子索引库中进行查询。
为了实现上述目的,根据本发明的又一实施例,提供了一种构造索引库的设备,包括:分词单元,被配置用于对文档进行分词处理以获得多个词汇;分类单元,被配置用于根据词汇特征将该多个词汇划分为多个词汇子集;以及索引构建单元,被配置用于针对该多个词汇子集的每一个创建一个子索引库以获得多个子索引库,该多个子索引库构成该索引库。
在该构造索引库的设备中,词汇特征可选自词汇长度、词汇类型和词汇频率及其组合。
在该构造索引库的设备中,词汇类型可包括中文汉字、中文词组,英文单词、英文词组、数字或日期。
该构造索引库的设备还可包括设置单元,被配置用于设置该分类单元中所使用的词汇特征。
该设置单元还可被配置用于设置用于该分类单元中划分的各个词汇子集的词汇特征的特征值范围。
依据本发明的其它实施例,还提供了相应的计算机可读存储介质和计算机程序产品。
根据本发明的实施例,通过根据词汇特征将分词处理获得的词汇划分到多个词汇子集中并分别针对每个词汇子集建立子索引库来构建索引库,从而能够提高检索的效率。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其它的优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明实施例的构造索引库的方法的流程图;
图2示出了根据本发明另一实施例的构造索引库的方法的流程图;
图3示出了根据本发明又一实施例的构造索引库的方法的流程图;
图4示出了根据本发明实施例的利用本发明构建的索引库进行查询的方法的流程的示意图;
图5示出了根据本发明实施例的利用本发明构建的索引库进行查询的设备的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010114867.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有自锁功能的框架式断路器
- 下一篇:数据安全存储方法