[发明专利]用于搜索引擎索引的混合分布模型有效

申请号：	201110373397.5	申请日：	2011-11-22
公开（公告）号：	CN102402605A	公开（公告）日：	2012-04-04
发明（设计）人：	K.M.里斯维克;M.霍普克罗夫特;J.贝内特;K.卡亚纳拉曼;T.基林比;C.P.沃特斯;V.帕里克;J.O.彼得森	申请（专利权）人：	微软公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	董宁;刘鹏
地址：	美国华***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于搜索引擎索引混合分布模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

背景技术

可以在因特网上获得的信息和内容的数量持续快速增多。在海量信息的情况下，已经开发出搜索引擎以便于搜索电子文档。具体来说，用户可以通过输入包括其可能感兴趣的一项或更多项的搜索查询来搜索信息和文档。在接收到来自用户的搜索查询之后，搜索引擎基于搜索查询识别出相关的文档和/或网页。由于其实用性，web搜索（即针对用户发出的搜索查询找到相关的网页和文档的处理）可证明地已经成为当今因特网上的其中一项最为普及的服务。

此外，搜索引擎通常使用一步处理，其基于所接收到的搜索查询利用搜索索引识别出相关文档以便返回给用户。但是搜索引擎排序功能已经变成非常复杂的功能，如果其被用于所索引的每一个文档的话可能不仅费时而且代价高昂。此外，对于这些复杂的公式所需要的数据存储也可以会带来问题，特别当以通常由单词或短语索引的倒排索引存储时尤其如此。当以倒排索引存储时，提取对于复杂公式所需的相关数据的效率很低。

发明内容

提供本概要是为了以简化形式介绍所选概念，下面在具体实施部分中将对其进行进一步的描述。本概要不意图标识所要求保护的主题内容的关键特征或实质特征，也不意图被用来帮助确定所要求保护的主题内容的范围。

本发明的实施例涉及在相同的节点集合上采用原子碎片化（sharded）和文档碎片化分布二者，从而使得每一个节点或机器存储倒排索引的一部分（其例如由原子碎片化）和正排索引的一部分（其例如由文档碎片化）。可以为片段指定其所负责的文档群组。所述文档群组由原子和文档二者索引，从而存在与该文档群组相关联的倒排索引和正排索引。每一个片段包括多个节点，并且可以为每一个节点指定倒排和正排索引二者的不同部分。此外，每一个节点负责利用存储在其上的倒排和正排索引部分二者执行多项排序计算。举例来说，初步排序处理可以利用倒排索引，并且最终排序处理可以利用正排索引。这些排序处理形成被采用来基于所接收到的搜索查询识别最具相关性的文档的总体排序处理。

附图说明

下面将参照附图详细描述本发明，其中：

图1是适用于实施本发明的实施例的示例性计算环境的方框图；

图2是可以在其中采用本发明的实施例的示例性系统的方框图；

图3是根据本发明的实施例的混合分布系统的示例图；

图4是根据本发明的实施例的示出了有效载荷要求的混合分布系统的示例图；

图5是示出了根据本发明的实施例的用于根据搜索查询利用混合分布系统来识别相关文档的方法的流程图；

图6是示出了根据本发明的实施例的用于为多处理文档检索系统生成混合分布系统的方法的流程图；以及

图7是示出了根据本发明的实施例的用于根据搜索查询利用混合分布系统来识别相关文档的方法的流程图。

具体实施方式

在这里将详细描述本发明的主题内容以满足法定要求。但是这里的描述本身不意图限制本专利的范围。相反，本发明的发明人已经设想到还可以按照其他方式来具体实现所要求保护的主题内容，以便与其他的现有或未来技术相结合地包括与本文献中所描述的类似的不同步骤或步骤组合。此外，虽然在这里可以使用术语“步骤”和/或“方框”来指代所采用的方法的不同元素，但是除非明确地描述各个单独步骤的顺序，否则所述术语不应被解释为意味着这里所公开的各个步骤当中或之间的任何特定顺序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软公司，未经微软公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110373397.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于搜索引擎索引的混合分布模型有效

专利文献下载