[发明专利]用于搜索引擎索引的混合分布模型有效
申请号: | 201110373397.5 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102402605A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | K.M.里斯维克;M.霍普克罗夫特;J.贝内特;K.卡亚纳拉曼;T.基林比;C.P.沃特斯;V.帕里克;J.O.彼得森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董宁;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 索引 混合 分布 模型 | ||
1.一种基于搜索查询利用混合分布系统来识别相关文档的方法,所述方法包括:
为片段分配510文档群组,所述文档群组在倒排索引中由原子索引并且在正排索引中由文档索引;
在形成所述片段的多个节点当中的每一个节点上存储514倒排索引和正排索引的不同部分;
访问516存储在第一节点集合当中的每一个节点上的倒排索引部分,以便识别与搜索查询相关的第一文档集合;以及
基于与第一文档集合相关联的文档标识,访问520存储在第二节点集合当中的每一个节点上的正排索引部分,以便把第一文档集合中的相关文档的数量限制到第二文档集合。
2.权利要求1的方法,其中,节点是能够基于其所存储的倒排索引部分和正排索引部分来执行排序计算的机器。
3.权利要求1的方法,其中,第二节点集合当中的节点数量大于第一节点集合当中的节点数量。
4.权利要求1的方法,其中,通过作为多级排序处理的一部分的初步排序处理将第一文档集合识别为与搜索查询相关,其中初步排序处理利用倒排索引部分。
5.权利要求4的方法,其中,第二文档集合当中的每一个文档被包含在第一文档集合中。
6.权利要求5的方法,其中,通过作为总体排序处理的一部分的最终排序处理识别出第二文档集合,其中最终排序处理利用正排索引部分。
7.权利要求1的方法,还包括:
接收搜索查询;
识别出搜索查询中的一个或更多原子;以及
在所述片段中识别出包含所述一个或更多原子的至少其中之一的第一节点集合。
8.权利要求1的方法,其中,存储在第二节点集合当中的每一个节点上的正排索引部分包含至少其中一个与第一文档集合相关联的文档标识。
9.权利要求1的方法,其中,合并来自多个片段的第二文档集合以便生成响应于搜索查询而被呈现给用户的最终文档集合。
10.一种为多处理文档检索系统生成混合分布系统的方法,所述方法包括:
接收610关于被指定给片段的文档群组的指示,所述片段包括多个节点;
对于所述片段,
(1)通过原子索引612所分配的文档群组以便生成倒排索引,并且
(2)通过文档索引614所分配的文档群组以便生成正排索引;以及
将倒排索引的一部分和正排索引的一部分指定616给形成所述片段的多个节点当中的每一个,从而使得所述多个节点当中的每一个存储正排索引的不同部分和倒排索引的不同部分。
11.权利要求10的方法,还包括:
在所述片段处接收关于已从搜索查询识别的一个或更多原子的指示;
识别出其倒排索引部分包括所述一个或更多原子的至少其中之一的第一节点集合;以及
部分地基于第一节点集合的倒排索引部分识别出第一文档集合。
12.权利要求11的方法,还包括:
识别出其正排索引部分包括对应于第一文档集合的一个或更多文档标识的第二节点集合;以及
至少基于正排索引部分中的数据识别出第二文档集合。
13.权利要求11的方法,其中,基于利用倒排索引部分的多级排序处理的初步排序处理来识别第一文档集合。
14.权利要求12的方法,其中,基于利用正排索引部分的多级排序处理的最终排序处理来识别第二文档集合。
15.权利要求12的方法,其中,基于搜索查询被传送以供呈现给用户的搜索结果是基于接收自多个片段的第二文档集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110373397.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:平面玻璃尺寸全自动光学检测系统
- 下一篇:导爆管在线双相机检测及喷码系统