[发明专利]用于大文档索引的匹配漏斗有效
申请号: | 201110373395.6 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102567461A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | K.M.里斯维克;M.霍普克洛夫特;J.G.贝内特;K.卡尔亚纳拉曼;T.基林比;C.P.沃特斯;J.O.彼得森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 黄维;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 索引 匹配 漏斗 | ||
1.一个或多个计算机存储介质,其存储计算机可用指令,所述计算机可用指令当由计算设备使用时使所述计算设备执行包括以下的方法:
接收(602)搜索查询;
重新阐述(604)所述搜索查询以识别一个或多个义原;
基于所述一个或多个义原来从搜索索引识别(606)文档的初始集合,所述搜索索引存储多个义原,所述多个义原包括一个或多个n元语法,一个或多个n-元组和一个或多个近n-元组;
使用简化的评分函数和预先计算的评分计算(702)文档的初始集合中每个文档的初步评分,预先计算的评分存储于文档的初始集合和一个或多个义原的文档/义原对的搜索索引中;
基于所述初步评分从所述文档的初始集合选择(704)文档的修剪集合;
使用全排序算法来计算(408)所述文档的修剪集合中每个文档的排序评分;以及
基于所述排序文档的集合提供(410)搜索结果以便向终端用户呈现。
2.根据权利要求1所述的一个或多个计算机存储介质,其中重新阐述所述搜索查询以识别一个或多个义原包括当生成所述搜索索引时使用用于识别文档中义原的技术来分析所述搜索查询以识别一个或多个义原。
3.根据权利要求1所述的一个或多个计算机存储介质,其中从所述搜索索引识别所述文档的初始集合包括识别与所述一个或多个义原中每一个相对应的记录列表且从每个记录列表识别文档。
4.根据权利要求1所述的一个或多个计算机存储介质,其中所述简化的评分函数基于全排序算法。
5.根据权利要求4所述的一个或多个计算机存储介质,其中所述简化评分函数包括由所述全排序算法使用的排序特征的子集。
6.根据权利要求1所述的一个或多个计算机存储介质,其中从所述文档的初始集合选择文档的修剪集合包括选择具有最高初步评分的预定数量的文档。
7.根据权利要求6所述的一个或多个计算机存储介质,其中所述预定数量的文档基于所述简化评分函数的真实性置信度。
8.根据权利要求1所述的一个或多个计算机存储介质,其中从所述文档的初始集合选择所述文档的修剪集合包括选择初步评分高于初步评分阈值的文档。
9.根据权利要求1所述的一个或多个计算机存储介质,其中所述搜索索引包括倒排索引和正排索引,且其中使用倒排索引来识别所述文档的初始集合,使用所述倒排索引来计算所述文档的初始集合的初步评分,且使用正排索引来计算所述排序文档的集合的排序评分。
10.根据权利要求1所述的一个或多个计算机存储介质,其中识别所述初始文档集合,计算初步评分和选择所述文档的修剪集合包括识别文档,计算初步评分和为所述文档的修剪集合选择文档的迭代过程直到为所述文档的修剪集合选择了阈值数量的文档为止。
11.一种计算机化的系统,其包括至少一个处理器和一个或多个计算机存储介质,所述系统包括:
查询重新阐述组件(314),其分析所接收的搜索查询来基于包含于所接收的搜索查询中的措词识别一个或多个义原以及生成重新阐述的查询;
文档匹配组件(316),其使用所述重新阐述的查询来查询搜索索引以识别匹配文档的初始集合,所述搜索索引存储多个义原,所述多个义原包括一个或多个n元语法,一个或多个n-元组和一个或多个近n-元组;
文档修剪组件(318),其使用简化的评分函数来计算来自所述匹配文档的初始集合的每个文档的初步评分且基于所述初步评分来识别文档的修剪集合;以及
最终文档排序组件(320),其使用全排序算法来计算所述文档的修剪集合中每个文档的排序评分。
12.根据权利要求11所述的计算机化系统,其中所述系统还包括编索引组件,其通过分析文档以识别所述文档中的义原,计算文档/义原对的预先计算的评分,以及生成义原的记录列表来在所述搜索索引中对文档数据编索引,其中每个记录列表与给定义原相对应且识别包含所述给定义原的文档的预先计算的评分。
13.根据权利要求12所述的计算机化系统,其中所述查询重新阐述组件使用由所述编索引组件用来识别所述文档中的义原的技术从所述接收的搜索查询识别一个或多个义原。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110373395.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于手术台可拆卸双层台面的固定装置
- 下一篇:限流电路断路器