[发明专利]用于搜索引擎索引的混合分布模型有效
申请号: | 201110373397.5 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102402605A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | K.M.里斯维克;M.霍普克罗夫特;J.贝内特;K.卡亚纳拉曼;T.基林比;C.P.沃特斯;V.帕里克;J.O.彼得森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董宁;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 索引 混合 分布 模型 | ||
背景技术
可以在因特网上获得的信息和内容的数量持续快速增多。在海量信息的情况下,已经开发出搜索引擎以便于搜索电子文档。具体来说,用户可以通过输入包括其可能感兴趣的一项或更多项的搜索查询来搜索信息和文档。在接收到来自用户的搜索查询之后,搜索引擎基于搜索查询识别出相关的文档和/或网页。由于其实用性,web搜索(即针对用户发出的搜索查询找到相关的网页和文档的处理)可证明地已经成为当今因特网上的其中一项最为普及的服务。
此外,搜索引擎通常使用一步处理,其基于所接收到的搜索查询利用搜索索引识别出相关文档以便返回给用户。但是搜索引擎排序功能已经变成非常复杂的功能,如果其被用于所索引的每一个文档的话可能不仅费时而且代价高昂。此外,对于这些复杂的公式所需要的数据存储也可以会带来问题,特别当以通常由单词或短语索引的倒排索引存储时尤其如此。当以倒排索引存储时,提取对于复杂公式所需的相关数据的效率很低。
发明内容
提供本概要是为了以简化形式介绍所选概念,下面在具体实施部分中将对其进行进一步的描述。本概要不意图标识所要求保护的主题内容的关键特征或实质特征,也不意图被用来帮助确定所要求保护的主题内容的范围。
本发明的实施例涉及在相同的节点集合上采用原子碎片化(sharded)和文档碎片化分布二者,从而使得每一个节点或机器存储倒排索引的一部分(其例如由原子碎片化)和正排索引的一部分(其例如由文档碎片化)。可以为片段指定其所负责的文档群组。所述文档群组由原子和文档二者索引,从而存在与该文档群组相关联的倒排索引和正排索引。每一个片段包括多个节点,并且可以为每一个节点指定倒排和正排索引二者的不同部分。此外,每一个节点负责利用存储在其上的倒排和正排索引部分二者执行多项排序计算。举例来说,初步排序处理可以利用倒排索引,并且最终排序处理可以利用正排索引。这些排序处理形成被采用来基于所接收到的搜索查询识别最具相关性的文档的总体排序处理。
附图说明
下面将参照附图详细描述本发明,其中:
图1是适用于实施本发明的实施例的示例性计算环境的方框图;
图2是可以在其中采用本发明的实施例的示例性系统的方框图;
图3是根据本发明的实施例的混合分布系统的示例图;
图4是根据本发明的实施例的示出了有效载荷要求的混合分布系统的示例图;
图5是示出了根据本发明的实施例的用于根据搜索查询利用混合分布系统来识别相关文档的方法的流程图;
图6是示出了根据本发明的实施例的用于为多处理文档检索系统生成混合分布系统的方法的流程图;以及
图7是示出了根据本发明的实施例的用于根据搜索查询利用混合分布系统来识别相关文档的方法的流程图。
具体实施方式
在这里将详细描述本发明的主题内容以满足法定要求。但是这里的描述本身不意图限制本专利的范围。相反,本发明的发明人已经设想到还可以按照其他方式来具体实现所要求保护的主题内容,以便与其他的现有或未来技术相结合地包括与本文献中所描述的类似的不同步骤或步骤组合。此外,虽然在这里可以使用术语“步骤”和/或“方框”来指代所采用的方法的不同元素,但是除非明确地描述各个单独步骤的顺序,否则所述术语不应被解释为意味着这里所公开的各个步骤当中或之间的任何特定顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110373397.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:平面玻璃尺寸全自动光学检测系统
- 下一篇:导爆管在线双相机检测及喷码系统