[发明专利]关键词和答案的确定方法、装置和计算机可读存储介质有效
申请号: | 201810399625.8 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108681564B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 梁仕强 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 答案 确定 方法 装置 计算机 可读 存储 介质 | ||
本公开涉及一种关键词的确定方法、装置和计算机可读存储介质,涉及自然语言处理技术领域。该方法包括:将语料中的句子划分为多个单词;根据多个单词建立第一词列表,第一词列表中包括各单词及其在语料中的出现频率,第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,合成词由N个单词组成,N大于等于2;根据各合成词建立第二词列表,第二词列表包括各合成词及其在所述语料中的出现频率,第二词列表中的各合成词按照其出现频率排序;根据第一词列表中各单词的出现频率和排序情况,以及第二词列表中包含各单词的合成词的出现频率和排序情况,确定各关键词。本公开的技术方案能够提高用户体验。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种关键词的确定方法、关键词的装置和计算机可读存储介质。
背景技术
如今新一轮的人工智能和机器学习浪潮席卷全球,对各行各业都产生了深远的影响。基于人工智能,大数据和深度学习基础上发展起来自然语言理解以及自然语言生成技术在近年中更是得到了长足的发展。
随着信息的碎片化,服务的多元化,以及人力成本越来越高,使用基于自然语言理解和自然语言生成的机器人客服逐渐取代人工客服,对顾客进行全流程接待并解决顾客的问题是大势所趋。
在相关技术中,机器人将顾客的问句和训练集中的所有句子进行对比,找出问句的最相近句子,然后以最接近句子的意图作为问句的意图。或者将问句与事先准备的问答对中的问题进行比较,找出最相似的问题,然后用该问题的答案作为应答回复给顾客。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:答案的生成需要依靠事先准备的标注语料或者问答对作为机器人学习的先验知识,导致在遇到未知问题时无法准确理解问题的意图,无法作出合适的应答,从而影响用户体验。鉴于此,本公开提出了一种能够准确理解语料意图的关键词和答案的确定技术方案用于生成合适的应答,从而提升用户体验。
根据本公开的一些实施例,提供了一种关键词的确定方法,包括:将语料中的句子划分为多个单词;根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词。
可选地,将所述关键词作为候选词,并根据所述候选词建立候选词列表,所述候选词列表中包含所述候选词及其在所述语料中的出现频率,所述候选词最多由M个单词组成,M大于等于1,所述候选词列表中的各候选词按照其出现频率排序;根据所述划分得到的单词重新生成合成词,所述合成词由L个单词组成,L大于M;根据所述合成词建立第三词列表,所述第三词列表包括所述各合成词及其在所述语料中的出现频率,所述第三词列表中的各合成词按照其出现频率排序;根据所述候选词列表中各候选词的出现频率和排序情况,以及所述第三词列表中包含所述各候选词的合成词的出现频率和排序情况,确定各关键词;重复执行上述步骤一次或多次。
可选地,判断所述第二词列表中合成词的出现频率与所述第一词列表中被所述合成词包含的单词的出现频率的比值是否大于阈值;在所述比值大于所述阈值的情况下,将所述合成词确定为关键词;在所述比值小于或等于所述阈值的情况下,判断所述合成词在所述第二列表中的排序是否高于所述单词在所述第一次列表中的排序,所述第一次列表中的单词按照单词的出现频率从高到低排序,所述第二次列表中的合成词按照合成词的出现频率从高到低排序,在是的情况下,将所述合成词确定为所述关键词,在否的情况下,将所述单词确定为所述关键词。
根据本公开的另一些实施例,提供了一种答案的确定方法,包括:上述任一个实施例中的关键词的确定方法;和根据接收到的问题中包含的所述关键词,在数据库中查找相应文档以生成所述问题的一个或多个答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810399625.8/2.html,转载请声明来源钻瓜专利网。