[发明专利]基于源问题生成相似问题的方法和装置在审
| 申请号: | 202010410003.8 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111309893A | 公开(公告)日: | 2020-06-19 |
| 发明(设计)人: | 彭爽;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 问题 生成 相似 方法 装置 | ||
本说明书实施例提供一种基于源问题生成相似问题的方法和装置,方法包括:获取源问题;对所述源问题进行分词处理,得到多个分词;从所述多个分词中提取至少一个关键词,并获取所述至少一个关键词的同义词和/或近义词,作为辅助信息;将所述辅助信息和所述源问题输入文本生成模型,通过所述文本生成模型输出所述源问题的相似问题。能够提升知识库中的标准问题对用户问题的覆盖率。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于源问题生成相似问题的方法和装置。
背景技术
由于语言表达的多样性,常常存在表达形式不同但语义相同的多个问题,在多种场景中,例如智能客服场景,由于用户表达的多样性,常常会出现不同的用户表达实质上想问的问题是相同的,因此需要预先确定标准问题,以便于与多种用户表达相匹配。
现有技术中,人工确定的标准问题常常无法覆盖多种用户表达的用户问题。
因此,希望能有改进的方案,能够提升知识库中的标准问题对用户问题的覆盖率。
发明内容
本说明书一个或多个实施例描述了一种基于源问题生成相似问题的方法和装置,能够提升知识库中的标准问题对用户问题的覆盖率。
第一方面,提供了一种基于源问题生成相似问题的方法,方法包括:
获取源问题;
对所述源问题进行分词处理,得到多个分词;
从所述多个分词中提取至少一个关键词,并获取所述至少一个关键词的同义词和/或近义词,作为辅助信息;
将所述辅助信息和所述源问题输入文本生成模型,通过所述文本生成模型输出所述源问题的相似问题。
在一种可能的实施方式中,所述文本生成模型包括编码器和解码器;
所述将所述辅助信息和所述源问题输入文本生成模型,通过所述文本生成模型输出所述源问题的相似问题,包括:
将所述辅助信息和所述源问题输入所述编码器,得到语义向量;
将所述语义向量输入所述解码器,得到所述源问题的相似问题。
在一种可能的实施方式中,所述文本生成模型包括第一编码器、第二编码器、解码器、第一交互层和第二交互层;
所述将所述辅助信息和所述源问题输入文本生成模型,通过所述文本生成模型输出所述源问题的相似问题,包括:
将所述辅助信息输入所述第一编码器,得到所述辅助信息包括的各字符分别对应的第一字符编码向量;
将所述源问题输入所述第二编码器,得到所述源问题包括的各字符分别对应的第二字符编码向量;
将所述第一字符编码向量和所述第二字符编码向量输入所述第一交互层,以使所述第一交互层得到所述第二字符编码向量的注意力权重,并基于该注意力权重对所述第二字符编码向量进行加权求和,得到所述源问题对应的第一语义向量;
将所述第一字符编码向量和所述第二字符编码向量输入所述第二交互层,以使所述第二交互层得到所述第一字符编码向量的注意力权重,并基于该注意力权重对所述第一字符编码向量进行加权求和,得到所述辅助信息对应的第二语义向量;
将所述第一语义向量和所述第二语义向量输入所述解码器,得到所述源问题的相似问题。
在一种可能的实施方式中,所述文本生成模型为强化学习模型;所述将所述辅助信息和所述源问题输入文本生成模型,通过所述文本生成模型输出所述源问题的相似问题,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010410003.8/2.html,转载请声明来源钻瓜专利网。





