[发明专利]一种问答方法及设备在审
申请号: | 201810367034.2 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108595619A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 修媛媛;杨善松;沈承恩 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题相似度 语义匹配 集合 答案 返回目标 接收用户 目标问题 输入方式 问答系统 问题确定 语义理解 客户端 预存 申请 服务器 | ||
1.一种问答方法,其特征在于,所述方法包括:
接收用户输入的问句,并获取所述问句的关键词;
根据所述关键词,从预存的问答对中获取候选问答对集合,所述候选问答对集合中包括至少一个候选问题和每个所述候选问题对应的答案;
计算所述问句与所述候选问题的主题相似度,并将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题;
向客户端返回所述目标问题对应的答案。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题,包括:
将所述至少一个候选问题中,所述主题相似度大于第一预设值的候选问题确定为第一问题,得到第一问答对集合;
根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度;
将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题,包括:
将所述第一问题中,所述词向量相似度大于第二预设值的第一问题确定为第二问题,得到第二问答对集合;
根据编辑距离算法,计算所述问句与所述第二问题的距离相似度,并将所述第二问题中,所述距离相似度最大的第二问题确定为所述目标问题。
4.根据权利要求1所述的方法,其特征在于,所述计算所述问句与所述候选问题的主题相似度,包括:
根据文档主题生成模型LDA生成的主题词,确定所述问句包含主题词的概率,以及所述候选问题包含主题词的概率;
根据所述问句包含主题词的概率和所述候选问题包含主题词的概率,计算所述问句与所述候选问题的主题相似度。
5.根据权利要求2所述的方法,其特征在于,在所述根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度之前,还包括:
对所述第一问题进行分词、去除停用词处理;
根据主题与焦点模型包括的预设规则,对所述问句和所述第一问题的分词结果进行排序;
根据排序后的所述问句和所述第一问题的分词结果,生成问题树;
采用至少一种切割方式切割所述问题树,并计算每种切割方式对应的描述长度,根据最小描述长度对应的切割方式,获取所述问句的主题和焦点,以及所述第一问题的主题和焦点;
根据词向量语言算法,获取所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量。
6.根据权利要求2所述的方法,其特征在于,所述根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度,包括:
计算所述问句的主题的词向量与所述第一问题的主题的词向量的第一相似度,并计算所述问句的焦点的词向量与所述第一问题的焦点的词向量的第二相似度;
根据所述第一相似度和所述第二相似度,得到所述问句与所述第一问题的词向量相似度。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在所述获取所述问句的关键词之后,还包括:
根据预存的同义词库,确定所述关键词的同义词;
所述根据所述关键词,从预存的问答对中获取候选问答对集合,包括:
根据所述关键词和所述同义词,从所述问答对中获取所述候选问答对集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810367034.2/1.html,转载请声明来源钻瓜专利网。