[发明专利]问答对生成方法和装置有效
申请号: | 201810718125.6 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108959559B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 孙兴武 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;宋珊珊 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 答对 生成 方法 装置 | ||
本发明实施例提出一种问答对生成方法和装置。该方法包括:将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;根据问题列表中的各问题确定对应的答案片段;将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;根据相关性判断结果生成各问答对。本发明实施例的问答对挖掘过程不依赖于问答网站,而是直接从各种查询文本中得到,因此,挖掘过程可以是离线的,能够以离线的方式支持在线搜索引擎,不会给线上系统带来压力。
技术领域
本发明涉及信息检索技术领域,尤其涉及一种问答对生成方法和装置。
背景技术
传统的搜索引擎通过关键词检索获取相关文本或者片段,用户需要点开检索的链接以找到正确的答案片段。为了更直观的找到用户所求,通常的做法有两种。
一种在线的方式:对检索的文本分段并排序,找到与问题最相关的答案片段并返回。这种方法局限性在于,如果当前检索结果不好,就不能找到所需答案或者很难找到权威的答案,而且在线的特征提取和排序对线上性能造成压力,另外需要海量人工标注的数据训练模型。
另一种离线的方式从海量问答对中通过交叉验证得到问答对资源并灌库支持检索。这种方法的局限性在于,问答站的数据存在权威性不好、口语化等问题严重。
并且,在问题生成时,通过转换规则或模板生成问题,这些人工总结的规则或模板往往召回率低,很难解决问题。
发明内容
本发明实施例提供一种问答对生成方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种问答对生成方法,包括:
将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
根据问题列表中的各问题确定对应的答案片段;
将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
根据相关性判断结果生成各问答对。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,将查询文本输入问题生成模型,得到问题列表,包括:
对所述查询文本进行分段,得到各段落;
对各段落进行词法处理和句法处理;
将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,根据问题列表中的各问题确定对应的答案片段,包括:
将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第三种实现方式中,还包括:
将各问答对存入搜索数据库;
如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,该方法还包括:
采用用户检索行为数据构建问题生成模型。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,采用用户检索行为数据构建问题生成模型,包括:
对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
对若干同义需求进行同义需求聚簇,得到各同义簇;
从各同义簇中挖掘出各泛化模式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810718125.6/2.html,转载请声明来源钻瓜专利网。