[发明专利]一种面向会话式实体搜索的查询扩展方法有效
申请号: | 201711162771.0 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107943919B | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 赵峰;王沛;肖洋;金海 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F16/9535 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 廖盈春;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 会话 实体 搜索 查询 扩展 方法 | ||
本发明公开一种面向会话式实体搜索的查询扩展方法,包括:对维基百科文档集预处理得到数据集D;遍历数据集D中每个文档d,得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;抽取WordNet中的语义信息和YAGO3中的实体相关信息;根据历史查询结果构建历史结果缓存队列L;根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用语义信息和实体相关信息对L中的历史结果进行分析获取历史反馈Qh;基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;利用R更新缓存队列L。本发明在减少查询开销的同时缩短查询流程。
技术领域
本发明涉及实体搜索领域,更具体地,涉及一种面向会话式实体搜索的查询扩展方法。
背景技术
会话式实体搜索就是通过用户交互的多轮查询方式对Web数据中主题相关的实体对象(如人、组织和地点等)及相应属性进行快速、准确的检索。相比传统实体搜索,会话式实体搜索会将用户意图分解为一系列查询,每轮查询中用户都会根据历史查询的结果提出新的查询或是修改原始查询。在此情形下,单轮查询描述的信息一般都是不完整的,同时查询的不断演进也可能使会话内容偏离目标主题,因此如何理解用户每轮查询的意图、缩短查询流程并保证会话主题的一致性是会话式实体搜索所要解决的关键问题。
目前对于理解用户的查询意图,传统实体搜索普遍采用查询扩展方法,该方法利用信息论、数据挖掘等技术从不同的信息源中获取查询相关的扩展项并结合原始查询生成新的查询,通过新的查询得到更多相关的结果。当前,面向传统实体搜索的查询扩展方法利用的信息源主要来自于两方面,一方面为初始查询的结果,对应基于伪相关反馈的查询扩展方法;另一方面则是知识库中的相关结果,对应基于外部语料库的查询扩展方法,这两种查询扩展方法在会话式实体搜索中均存在局限性。
会话式实体搜索中多轮查询间存在显著的关联,历史查询结果对于本轮查询的影响较大,上述的查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率的技术问题。
为实现上述目的,本发明提供一种面向会话式实体搜索的查询扩展方法,包括以下步骤:
(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;
(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;
(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;
(4)根据历史查询结果构建历史结果缓存队列L;
(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711162771.0/2.html,转载请声明来源钻瓜专利网。