[发明专利]近义词挖掘方法、装置、设备及存储介质在审
申请号: | 202010149502.6 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111401043A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 方春华 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/247;G06F40/284;G06F40/216 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近义词 挖掘 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种近义词挖掘方法、装置、设备及存储介质,用于提高近义词预测的精确度。所述方法包括:获取用户输入问题语句中的目标词;采用独热编码对目标词进行数据预处理,获得目标词对应的独热码;将目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测,获得对应的中间词;采用词嵌入模型对中间词进行向量表征,获得对应的中间词向量;计算中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度;将预置目标领域词表中的每一个单词根据计算得到的对应相似度进行降序排序,从而获得对应的近义词词典。
技术领域
本发明涉及人工智能的语义解析技术领域,尤其涉及一种近义词挖掘方法、装置、设备及存储介质。
背景技术
通过现有的word2vec算法将上下文单词对应的词向量加总起来以预测中间词向量,并未考虑到上下文单词的顺序对预测中间词向量的作用,因而通过现有word2vec算法在进行近义词挖掘时并未考虑到近义词词性的作用。
发明内容
本发明的主要目的在于解决由于现有word2vec算法进行近义词挖掘并未考虑到近义词词性的作用导致预测精确度不足的技术问题。
为实现上述目的,本发明第一方面提供了一种近义词挖掘方法,包括:
获取用户输入问题语句中的目标词;
采用独热编码对所述目标词进行数据预处理,获得所述目标词对应的独热码;
将所述目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测,获得对应的中间词;
采用词嵌入模型对所述中间词进行向量表征,获得对应的中间词向量;
计算所述中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度,所述预置目标领域词表为目标领域检索语言语种的词典;
将所述预置目标领域词表中的每一个单词根据计算得到的对应相似度进行降序排序,获得对应的近义词词典。
可选的,在本发明第一方面的另一种实现方式中,在所述获取用户输入问题语句中的目标词之前,包括:
获取目标领域问题库中的待训练问题,并将每一条待训练问题进行切词处理,获取对应的上下文单词,所述待训练问题中包含不同词性的词语;
采用独热编码对所述上下文词块进行数据预处理,获得所述上下文单词对应的独热码;
将每一个所述上下文单词对应的独热码乘以输入权重矩阵,得到对应的词向量;
将每一个所述上下文单词对应的词向量进行向量拼接,得到所述上下文单词对应的拼接向量;
将所述上下文单词对应的拼接向量输入连续词袋模型模型,输出得到独热编码的中间词;
将所述中间词对应的独热码乘以输出权重矩阵,得到对应的中间词向量;
使用激活函数处理所述中间词向量得到对应的概率分布,获取概率最大的值对应的单词作为预测得到的中间词;
采用预置损失函数计算所述预测得到的中间词与所述独热编码的中间词之间的误差,直至得到对应的最小的函数值,得到对应的预置连续词袋模型。
可选的,在本发明第一方面的另一种实现方式中,在所述采用预置损失函数计算所述预测得到的中间词与所述独热编码的中间词之间的误差,直至得到对应的最小的函数值,得到对应的预置连续词袋模型之后,所述方法还包括:
根据所述预置损失函数计算得到的函数值,采用梯度下降算法更新所述输入权重矩阵、输出权重矩阵,得到更新的输入权重矩阵、以及更新的输出权重矩阵。
可选的,在本发明第一方面的另一种实现方式中,所述预置损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010149502.6/2.html,转载请声明来源钻瓜专利网。