[发明专利]利用从结构化文档中提取的特征来改善搜索关联性有效

专利信息
申请号: 201280037502.0 申请日: 2012-07-23
公开(公告)号: CN103718178A 公开(公告)日: 2014-04-09
发明(设计)人: R.R.梅塔;S.H.纳加拉卢;A.达斯;B.米特拉 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 李舒;汪扬
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 结构 文档 提取 特征 改善 搜索 关联性
【说明书】:

背景技术

Web搜索引擎是被配置成搜索在万维网(World Wide Web)和FTP服务器上可得到的信息的计算机实施的系统。在操作中,搜索引擎接收由用户所发出的查询并且至少部分地基于该查询在由搜索引擎所索引的文档上来执行搜索。搜索引擎的目标是给用户提供与用户的信息检索意图最相关的文档。能够被搜索过并且提供给用户的文档的类型包括web页面、图像、来自新闻订阅的数据等。

搜索引擎希望给用户提供最相关的搜索结果,并且响应于查询的接收利用相对复杂的算法来输出文档的排名列表。排名最高的文档(被搜索引擎认为与用户的信息检索意图最相关的文档)被最显著地呈现给用户,典型地作为搜索结果的列表中的最顶部的搜索结果。当与最相关的搜索结果相比时被认为与用户的信息检索意图不太相关的搜索结果被呈现在搜索结果的排名列表中的较下面。

准确地确定哪些搜索结果对于用户而言是最重要的是非常重要的任务,因为一般地用户将不分析大量搜索结果来找到与用户的信息检索意图最相关的文档。相反地,如果用户未迅速地看见被认为与她的信息意图相关的搜索结果,则用户将很可能放弃搜索这种信息、重做查询或者试图使用另一搜索引擎来定位期望的信息。因为收入在搜索引擎中是基于广告费用被生成的,至关重要的是搜索引擎准确地相对于用户的信息检索意图来确定文档的排名以便保持业务量并且吸引新的用户。

发明内容

以下是被在本文中更详细地描述的主题的简要概括。至于权利要求的范围,这个概括不旨在为限制性的。

本文中所描述的是关于对由搜索引擎响应于接收到来自用户的查询而检索到的文档进行排名的各种技术。万维网在其上具有在性质上为半结构化的许多web页面。也就是说,半结构化web页面的内容不符合标准关系数据库模式(schema),但然而包括能够被识别的内容的特定模式。例如,零售商的web站点可以包括多个web页面,其中所述多个web页面中的每个web页面都被配置售卖或者描述产品。虽然web站点中的两个web页面针对不同的产品,但是两个web页面(连同属于该web站点的其它web页面)的结构和布局可以是基本上类似的。

例如,每个web页面分别可以具有在特定位置处的产品的图像、在特定位置处的产品的标题、在特定位置处的产品的评论等。在另一例子中,web站点可以包括被配置成将各种视频呈现给其用户的多个web页面。因此,虽然这种web站点中的每个web页面显示不同的视频,但是web页面中的每一个都可以包括在特定位置处的相应视频的标题、在特定位置处的视频的浏览数(views)的数目、在特定位置处的关于视频的点评等。而且,社交联网web站点可以包括被配置成呈现针对社交联网web站点的许多不同用户的简档(profile)的多个web页面。再者,虽然每个web页面可以显示关于不同用户的信息,但是诸如用户的标识、用户的图像、用户的简历、用户的联系人的数目等之类的特定特征可以跨越这种web站点的web页面处于类似的位置中。

一般地,搜索引擎在确定如何响应于查询的接收来对web页面进行排名时未能考虑与由用户所发出的查询的内容独立的web页面上的内容。在示范性实施例中,本文中所描述的搜索引擎可以输出搜索结果的排名列表,其包括至少一个半结构化web页面,其中半结构化web页面在搜索结果的排名列表中的位置是至少部分地基于显示给与查询的内容独立的web页面的用户的特征的值的。按照例子,半结构化web页面可以是被配置成显示关于特定产品的信息的web页面。能够在响应于查询的接收确定这种web页面的位置时被考虑的示范性特征能够包括由产品的购买人在这种web页面上所张贴的评论的数目、由产品的购买人在web页面上所张贴的肯定评论的数目和/或由产品的购买人在web页面上所张贴的否定评论的数目。因此,在例子中用户可以将查询“camera (相机)”提供给搜索引擎,并且搜索引擎能够检索描述(并且可能地售卖)两个不同的相应相机的两个不同的半结构化web页面。描述具有较大量肯定评论的相机的web页面可以在搜索结果中被定位在描述具有较少肯定评论或较多否定评论的相机的web页面以上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280037502.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top