[发明专利]宽松的过滤设置无效
申请号: | 200980149052.2 | 申请日: | 2009-11-17 |
公开(公告)号: | CN102239492A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | Y·王;T·K·多曾;D·齐;R·马宗德;G·高希;N·R·维贾亚 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 宽松 过滤 设置 | ||
背景
大多数现行的搜索引擎使用基于关键字的搜索以在万维网(web)上定位网页或在线信息。搜索引擎使用web爬行器来遍历在线网页并将网页的内容归类成倒排索引。倒排索引是一种索引数据结构,其存储了关键字到已被web爬行器定位了关键字的在线文档的映射关系。倒排索引中的条目包括关键字和含有感兴趣的关键字的文档的列表。当用户向搜索引擎发出诸如“dentists in Seattle Washington”(华盛顿州西雅图市内的牙医)之类的查询时,搜索引擎能通过查找倒排索引来快速地检索出包含这四个关键字的在线文档的列表。
大多数基于关键字的搜索引擎按如下假设操作:用户仅意在寻找含有所有搜索项的文档。传统搜索引擎通过定位含有所提交的每一个关键字的文档来应答提交的查询。这一般被称为“基于“与”的搜索”。然而当用户通过包含不必要的项来过度指定查询时,未含有一个或多个额外项的相关文档不能被定位到。在上述例子中,倒排索引可能仅仅指定包含关键字“dentists”(牙医)和“Seattle”(西雅图市)但不包含“in”(内的)和“Washington”(华盛顿州)的文档。因此,搜索引擎将不返回不包括以上全部四个关键字的文档。
概述
提供此概述以便以简化的形式介绍在以下的详细描述中进一步描述的一些概念。此概述并不意在标识所要求保护的主题的关键特征或必要特征,也不是意在被用于帮助确定所要求保护的主题的范围。
本发明的一个方面涉及定位满足搜索引擎查询中的单词的子集的web文档。一旦用户将查询提交给搜索引擎,搜索引擎将查询解析为关键字并确定web爬行器是否在任何在线文档中找到这些关键字的子集。为了这样做,搜索引擎可对照web爬行器找到的项的倒排索引查询单词,并检查在其中找到这些项的文档。还有,搜索引擎查询中的一些关键字可被指定为“非宽松”关键字。非宽松关键字,如果被指定的话,必须被包含在被标识为匹配查询的任何文档中。搜索引擎在搜索结果列表中返回标识出的文档。
本发明的另一个方面涉及被配置成返回上述搜索结果列表的服务器。所述服务器被配置成从客户机计算设备接收搜索引擎查询,将所述查询解析为关键字,搜索倒排索引以确定是否有任何文档包含这些关键字的子集。所述服务器还可被配置成仅定位还包含任何非宽松关键字的文档。
附图的若干视图的简述
下文参考附图详细描述本发明,其中:
图1是根据一个实施例的示例性计算设备的框图;
图2是根据一个实施例的倒排索引的表格表示的示图;
图3A是根据一个实施例的在搜索引擎上执行宽松搜索(relaxed searching)的联网环境的框图;
图3B示出根据一个实施例的在配置成执行宽松搜索的联网环境上的框图和信息流;
图4是示出根据一个实施例的在搜索引擎上执行宽松搜索的步骤的流程图;以及
图5是根据一个实施例的来自执行宽松搜索的搜索引擎的搜索结果列表的示图。
详细描述
此处描述的主题用具体细节来呈现以满足法定要求。然而,此处的描述并不意在限制本专利的范围。相反,可以理解的是所要求保护的主题还可以结合其他当前或将来的技术以其他方式实现,以包括与本文档中所述的步骤不同的步骤或与本文档中所述的步骤类似的步骤的组合。另外,尽管此处可使用术语“框”来指示所用方法的不同元素,但该术语不应该被理解为意味着此处所公开的各步骤之中或之间的任何特定顺序。
一般来说,此处描述的实施例涉及搜索引擎,该搜索引擎通过标识仅包含用户提交的关键字的子集的文档来为搜索引擎查询创建结果列表。在一个实施例中,一旦用户提交搜索引擎查询,搜索引擎在倒排索引中检查以定位含有该查询中的每个单独的关键字的文档。然后,为每个单词而被标识的文档可被比较,以查看该文档是否包含任何其他关键字。只有包含了关键字的子集的文档才会被标识用于结果列表。关键字的子集相当于关键字总数(N)减去小于N的给定数字(K),产生N-K个单词长度的子集。例如,如果查询包含“Seattle dentists in Washington”,且K等于1,那么文档将仅需要上述单词中的任意三个单词以被包括在结果列表上。K可以任何数字变化,且可要么由搜索引擎的管理者设定,要么由搜索引擎使用已知的试探法来设定。为简明起见,N减去K在此处用N-K表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980149052.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一体化智能加药除臭系统
- 下一篇:带警示功能的消毒柜