[发明专利]使用路径受约束的随机游走的查询扩展和查询-文档匹配有效
申请号: | 201480042201.6 | 申请日: | 2014-07-24 |
公开(公告)号: | CN105659225B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | J·高;G·徐;J·徐 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜;王英 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 路径 约束 随机 游走 查询 扩展 文档 匹配 | ||
在本文中所描述的各种技术涉及使用路径受约束的随机游走来进行查询扩展和/或查询文档匹配。来自搜索日志的点进数据被表示为带标记并且有向的图。基于输入查询在图上执行路径受约束的随机游走。所述图包括:第一节点集合,其表示包括在来自搜索日志的点进数据中的查询;第二节点集合,其表示包括在来自搜索日志的点进数据中的文档;第三节点集合,其表示来自查询和文档的单词;以及在节点之间的边,所述边表示在查询、文档和单词之间的关系。路径受约束的随机游走包括在所述图的节点之间的边上进行的遍历。此外,至少部分地基于路径受约束的随机游走,计算在目标节点和表示输入查询的源节点之间的关系的得分。
背景技术
项错配(term mismatch)可能成为在执行搜索时的挑战。例如,一项查询(query)与其相关文档往往是使用不同词汇和语言风格来构成的,这会导致项错配。搜索引擎所利用的将文档匹配到查询的常规算法可能由于项错配而受到不利影响,并且因此,常常采用查询扩展(QE)来解决这样的挑战。查询扩展(query expansion)能够利用另外的相关项(称作“扩展项”)来对由用户发起的查询进行扩展,以使得能够检索到更相关的文档。
已经实现了各种常规QE技术以用于信息检索(IR)。一些基于自动相关反馈(例如,显式反馈和伪相关反馈(PRF))的传统QE技术能够增强IR的表现。然而,这样的技术可能无法直接应用于商业网络搜索引擎,因为相关的文档可能是不可用的。此外,伪相关文档的生成可以采用多相位检索,这要实时执行可能是昂贵并且耗时的。
最近发展的QE技术利用搜索日志(例如,点进(click-through)数据)。这些技术称为基于日志的QE,也能够从(伪)相关文档的集合中得出扩展项用于查询。然而,与基于自动相关反馈的技术不同,可以用基于日志的QE技术根据记录在搜索日志中的用户点击(click)来识别相关的集合。例如,通过将先前已针对输入查询点击过的文档包括进来,能够形成该查询的(伪)相关文档的集合。许多常规的基于日志的QE技术使用根据搜索日志预先计算出的全局模型。该模型能够捕获在查询项和文档项之间的相互关系,并且能够被用来即时(on the fly)为输入查询生成扩展项。
尽管基于日志的QE技术的有效性,这样的方法仍可能苦于各种问题。例如,数据稀疏性能够对基于日志的QE技术的有效性造成影响。如齐普夫定律(Zipf's law)所陈述的,大部分的查询在搜索日志中可能几乎没有或完全没有点击。此外,搜索意图的模糊性能够对基于日志的QE技术造成不利影响。例如,项相互关系模型(term correlation model)可能无法将查询项“book”在“school book(学校用书)”中与在“hotel booking(酒店预订)”中的搜索意图相区分。虽然通过使用基于词组(phrase)和概念的相互关系模型可以部分地缓解该问题,但可能存在这样的场景:其中在不使用全局上下文的情况下不能够正确地识别搜索意图。例如,查询“为什么六瓶一包”可能是关于包装的,而“极品烘焙面包”的查询意图可能关心的是在加利福尼亚寻找一家面包店。在这样的情况下,该输入查询的(伪)相关文档的集合,如果可得的话,可能是比全局相互关系模型更可能保留原始搜索意图的。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480042201.6/2.html,转载请声明来源钻瓜专利网。