[发明专利]针对用户问题和知识库返回答案的方法和装置在审
申请号: | 202110779953.2 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113435213A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 韦峰;陈召群 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/211;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 用户 问题 知识库 返回 答案 方法 装置 | ||
本说明书实施例提供一种针对用户问题和知识库返回答案的方法和装置,方法包括:获取用户问题;确定与所述用户问题相关联的若干个段落,所述若干个段落来自于所述多个文档;将用户问题和若干个段落中的任一个段落输入机器阅读理解模型,得到该段落中是否包含答案的标记,以及答案的起始位置和终止位置,以便返回多个答案,以及多个答案分别的起始位置和终止位置。能够针对用户问题和知识库直接返回答案。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及针对用户问题和知识库返回答案的方法和装置。
背景技术
知识库中包含着大量的文档,通常可以利用搜索引擎,由用户输入其需求,根据用户的需求向用户返回信息。
传统的搜索引擎对于用户的需求大都是浅层语义理解,缺乏对用户搜索诉求的真正理解。例如,基于分词和关键词匹配以及简单地浅层语义匹配,直观的感觉关键词出现次数越多,权重越高,在搜索结果中的排名越靠前。用户需要自己去挑选合适的关键词来表达其想要搜索的问题,并且搜索结果质量比较差,只能给出文档的排序,不能直接返回答案,用户往往需要进行多次结果的检索才能从文档中找到答案。
因此,希望能有改进的方案,能够针对用户问题和知识库直接返回答案。
发明内容
本说明书一个或多个实施例描述了一种针对用户问题和知识库返回答案的方法和装置,能够针对用户问题和知识库直接返回答案。
第一方面,提供了一种针对用户问题和知识库返回答案的方法,所述知识库包括多个文档,方法包括:
获取用户问题;
确定与所述用户问题相关联的若干个段落,所述若干个段落来自于所述多个文档;
将所述用户问题和所述若干个段落中的任一个段落输入机器阅读理解模型,得到该段落中是否包含答案的标记,以及答案的起始位置和终止位置,以便返回多个答案,以及多个答案分别的起始位置和终止位置。
在一种可能的实施方式中,所述获取用户问题,包括:
获取用户输入的原始问句;
将所述原始问句输入预先训练的问题改写模型,得到所述用户问题。
进一步地,所述知识库属于目标领域;
所述问题改写模型采用如下方式进行训练:
基于通用的多个领域的第一训练样本对所述问题改写模型进行训练,得到初始训练后的所述问题改写模型;
基于所述目标领域的第二训练样本对初始训练后的所述问题改写模型进行微调,得到微调后的所述问题改写模型。
进一步地,所述第一训练样本通过如下方式获得:
获取对应于同一问题的多个答案,所述多个答案包括第一答案和第二答案;
将所述第一答案作为样本输入,所述第二答案作为样本标签,得到所述第一训练样本。
进一步地,所述第二训练样本通过如下方式获得:
获取原始问题和改写后的问题;
将所述原始问题作为样本输入,所述改写后的问题作为样本标签,得到所述第二训练样本。
在一种可能的实施方式中,所述确定与所述用户问题相关联的若干个段落,包括:
确定所述用户问题分别与所述知识库中的各文档之间的匹配度,从所述知识库中选择出匹配度最高的预设数目个文档;
将所述预设数目个文档进行分段处理,得到所述若干个段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110779953.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:推荐处理方法及装置
- 下一篇:一种图像的相关性分析装置