[发明专利]用于大文档索引的匹配漏斗有效
申请号: | 201110373395.6 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102567461A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | K.M.里斯维克;M.霍普克洛夫特;J.G.贝内特;K.卡尔亚纳拉曼;T.基林比;C.P.沃特斯;J.O.彼得森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 黄维;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 索引 匹配 漏斗 | ||
背景技术
因特网上可用的信息和内容量继续迅速增长。考虑到大量信息,已开发搜索引擎来便于搜索电子文档。特别地,用户可通过输入包括用户可能感兴趣的一个或多个措词的搜索查询而搜索信息和文档。在从用户接收搜索查询之后,搜索引擎基于该搜索查询来识别文档和/或网页。由于其效用,网络搜索,即找到针对用户发布的搜索查询的相关网页和文档的过程,可以说现在已经变成了因特网上最流行的服务。
搜索引擎通过爬取(crawl)文档和在搜索索引中对关于文档的信息编索引来操作。当接收到搜索查询时,搜索引擎采用搜索索引来识别与搜索查询相关的文档。以此方式使用搜索索引允许快速地检索针对查询的信息。在无搜索索引的情况下,搜索索引将需要搜索文档的文集以寻找相关结果,这将花费不可接受量的时间。
随着因特网继续发展,可爬取且在搜索索引中编索引的可搜索文档的数量变得极大。因此,搜索引擎对关于所有网络文档的信息编索引是不可行的。举例而言,将需要过量硬件存储。此外,从极大索引检索结果所需的处理时间将是不可接受的。尽管如此,搜索引擎力图对尽可能多的文档编索引以提供任何查询的搜索结果,同时节省成本且能在终端用户可接受的时间量内提供相关结果。
发明内容
提供此发明内容以便以简化形式引入概念的选择,这些概念将在具体实施方式中详述。此发明内容不预期标识要保护的主题的关键特征或基本特征,也不预期用作确定所保护的主题范围的辅助。
本发明的实施例涉及一种通过在各个阶段评估和修剪(prune)候选文档来响应于搜索查询提供搜索结果的分阶段过程。最初,可通过识别文档中的义原(atom)和预先计算文档/义原对的评分来生成搜索索引。当接收到搜索查询时,可通过识别搜索查询中的义原和基于所识别的义原生成重新阐述的查询而重新阐述该搜索查询。搜索索引可使用重新阐述的查询来查询以识别匹配的文档。可使用简化的评分函数和存储于索引中的预先计算的评分来生成匹配文档的初步评分。可基于初步评分来保留文档的修剪集合。在修剪集合中的文档然后可使用全排序算法来评估以生成排序文档集合,其用于生成响应于搜索查询而返回的搜索结果。
附图说明
将参看附图在下文中详细地描述本发明,在附图中:
图1是适用于实施本发明的实施例的示例性计算环境的方块图;
图2是示出根据本发明实施例的用于检索排序文档集合以减少文档候选者的智能漏斗(funnel)的示意图;
图3是其中可采用本发明的实施例的示例性系统的方块图;
图4是示出根据本发明实施例响应于搜索查询返回搜索结果的分阶段过程的方法的流程图;
图5是示出根据本发明实施例的用于在预先计算/编索引阶段期间生成搜索索引的方法的流程图;
图6是示出根据本发明实施例的用于在匹配时期识别匹配文档的初始集合的方法的流程图;以及
图7是根据本发明实施例的用于在修剪时期从匹配文档的初始集合修剪文档的方法的流程图。
具体实施方式
在本文中具体地描述了本发明的主题以满足法定要求。但是,描述本身不预期限制本专利的范围。而是,本发明人设想到所要求保护的主题也可以以其它方式实施,以结合其它目前或未来的技术包括不同步骤或类似于本文中所述步骤的步骤的组合。此外,尽管可在本文中使用措词“步骤”和/或“方块”来意味着所采用方法的不同要素,但措词不应理解为暗示本文所公开的各种步骤之间的任何特定次序,除非且除了当明确地描述了各个步骤的次序时。
本发明的实施例提供编索引和搜索过程,其允许以节省成本的方式对大量文档编索引和搜索且其满足严格的延迟约束。根据本发明的实施例,采用以多个阶段评估和修剪掉文档候选者的过程。在概念上,该过程看起来类似漏斗,因为经过这些阶段,随着分析变得更复杂,评估且修剪掉文档候选者。随着过程继续经过这些阶段,应用花费更多的计算且候选文档的数量减少多个数量级。在这些阶段中的每个阶段应用不同策略来允许快速且高效的方案来使得从大量文档返回搜索结果。此外,在每个阶段所用的策略可设计成补充在其它阶段所用的策略以使得该过程更高效。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110373395.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于手术台可拆卸双层台面的固定装置
- 下一篇:限流电路断路器