[发明专利]针对用户问题和知识库返回答案的方法和装置在审
申请号: | 202110779953.2 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113435213A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 韦峰;陈召群 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/211;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 用户 问题 知识库 返回 答案 方法 装置 | ||
1.一种针对用户问题和知识库返回答案的方法,所述知识库包括多个文档,所述方法包括:
获取用户问题;
确定与所述用户问题相关联的若干个段落,所述若干个段落来自于所述多个文档;
将所述用户问题和所述若干个段落中的任一个段落输入机器阅读理解模型,得到该段落中是否包含答案的标记,以及答案的起始位置和终止位置,以便返回多个答案,以及多个答案分别的起始位置和终止位置。
2.如权利要求1所述的方法,其中,所述获取用户问题,包括:
获取用户输入的原始问句;
将所述原始问句输入预先训练的问题改写模型,得到所述用户问题。
3.如权利要求2所述的方法,其中,所述知识库属于目标领域;
所述问题改写模型采用如下方式进行训练:
基于通用的多个领域的第一训练样本对所述问题改写模型进行训练,得到初始训练后的所述问题改写模型;
基于所述目标领域的第二训练样本对初始训练后的所述问题改写模型进行微调,得到微调后的所述问题改写模型。
4.如权利要求3所述的方法,其中,所述第一训练样本通过如下方式获得:
获取对应于同一问题的多个答案,所述多个答案包括第一答案和第二答案;
将所述第一答案作为样本输入,所述第二答案作为样本标签,得到所述第一训练样本。
5.如权利要求3所述的方法,其中,所述第二训练样本通过如下方式获得:
获取原始问题和改写后的问题;
将所述原始问题作为样本输入,所述改写后的问题作为样本标签,得到所述第二训练样本。
6.如权利要求1所述的方法,其中,所述确定与所述用户问题相关联的若干个段落,包括:
确定所述用户问题分别与所述知识库中的各文档之间的匹配度,从所述知识库中选择出匹配度最高的预设数目个文档;
将所述预设数目个文档进行分段处理,得到所述若干个段落。
7.如权利要求6所述的方法,其中,所述确定所述用户问题分别与所述知识库中的各文档之间的匹配度,包括:
确定所述用户问题包括的至少一个关键词;
利用所述至少一个关键词与所述知识库中的各文档进行匹配,得到所述匹配度。
8.如权利要求6所述的方法,其中,所述将所述预设数目个文档进行分段处理,包括:
获取所述预设数目个文档中的原始段落构成的段落集合;
根据所述原始段落与所述用户问题的相关得分,将所述段落集合中的相关得分小于预设分值的原始段落过滤;
针对过滤后的所述段落集合中的各原始段落,筛选出段落长度小于第一阈值的原始段落,对筛选出的原始段落进行合并,以使合并后的段落长度大于第一阈值;
针对过滤后的所述段落集合中的各原始段落,筛选出段落长度大于第二阈值的原始段落,对筛选出的原始段落进行切分,以使切分后的段落长度小于第二阈值。
9.如权利要求1所述的方法,其中,所述方法还包括:
根据所述用户问题分别与所述若干个段落的匹配度,按照匹配度由高到低的顺序对所述若干个段落进行排序;
根据所述若干个段落的排序,确定所述若干个段落中包含的多个答案的排序,以便按照排序返回多个答案,以及多个答案分别的起始位置和终止位置。
10.如权利要求9所述的方法,其中,所述用户问题分别与所述若干个段落的匹配度通过如下方式确定:
将所述用户问题和所述若干个段落中的任一个段落输入预先训练的段落匹配模型,得到所述用户问题与该段落的匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110779953.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:推荐处理方法及装置
- 下一篇:一种图像的相关性分析装置