[发明专利]关键词和答案的确定方法、装置和计算机可读存储介质有效
申请号: | 201810399625.8 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108681564B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 梁仕强 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 答案 确定 方法 装置 计算机 可读 存储 介质 | ||
1.一种关键词的确定方法,包括:
将语料中的句子划分为多个单词;
根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;
根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;
根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;
根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词;
其中,所述确定各关键词包括:
判断所述第二词列表中合成词的出现频率与所述第一词列表中被所述合成词包含的单词的出现频率的比值是否大于阈值;
在所述比值大于所述阈值的情况下,将所述合成词确定为关键词;
在所述比值小于或等于所述阈值的情况下,判断所述合成词在所述第二词列表中的排序是否高于所述单词在所述第一词列表中的排序,所述第一词列表中的单词按照单词的出现频率从高到低排序,所述第二词列表中的合成词按照合成词的出现频率从高到低排序,
在是的情况下,将所述合成词确定为所述关键词,
在否的情况下,将所述单词确定为所述关键词。
2.根据权利要求1所述的确定方法,还包括:
将所述关键词作为候选词,并根据所述候选词建立候选词列表,所述候选词列表中包含所述候选词及其在所述语料中的出现频率,所述候选词最多由M个单词组成,M大于等于1,所述候选词列表中的各候选词按照其出现频率排序;
根据所述划分得到的单词重新生成合成词,所述合成词由L个单词组成,L大于M;
根据所述合成词建立第三词列表,所述第三词列表包括所述各合成词及其在所述语料中的出现频率,所述第三词列表中的各合成词按照其出现频率排序;
根据所述候选词列表中各候选词的出现频率和排序情况,以及所述第三词列表中包含所述各候选词的合成词的出现频率和排序情况,确定各关键词;
重复执行上述步骤一次或多次。
3.一种答案的确定方法,包括:
权利要求1或2所述关键词的确定方法;和
根据接收到的问题中包含的所述关键词,在数据库中查找相应文档以生成所述问题的一个或多个答案。
4.根据权利要求3所述的确定方法,还包括:
根据生成的各答案建立候选答案数据库,所述候选答案数据库中包含所述各答案的调用次数和所述各答案的意图标签,所述调用次数为所述各答案被用来回答问题的次数,所述意图标签根据所述各答案被用来回答问题时该问题所在会话的上下文的意图生成;
从当前问题所在的会话中确定所述当前问题的意图;
根据所述当前问题的意图和所述候选答案数据库中的所述意图标签,在所述候选答案数据库中确定各候选答案及其第一评分;
计算所述当前问题与所述各候选答案的文本匹配程度作为所述各候选答案的第二评分;
根据所述第一评分、所述第二评分和所述各候选答案的调用次数确定所述当前问题的答案。
5.根据权利要求4所述的确定方法,还包括:
根据确定的答案的意图标签在所述数据库中查找相应的文本;
根据所述相应的文本,回答所述当前问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810399625.8/1.html,转载请声明来源钻瓜专利网。