[发明专利]近义词挖掘方法、装置、设备及存储介质在审

申请号：	202010149502.6	申请日：	2020-03-06
公开（公告）号：	CN111401043A	公开（公告）日：	2020-07-10
发明（设计）人：	方春华	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/247;G06F40/284;G06F40/216
代理公司：	北京市京大律师事务所 11321	代理人：	刘挽澜
地址：	518033 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	近义词挖掘方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，公开了一种近义词挖掘方法、装置、设备及存储介质，用于提高近义词预测的精确度。所述方法包括：获取用户输入问题语句中的目标词；采用独热编码对目标词进行数据预处理，获得目标词对应的独热码；将目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测，获得对应的中间词；采用词嵌入模型对中间词进行向量表征，获得对应的中间词向量；计算中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度；将预置目标领域词表中的每一个单词根据计算得到的对应相似度进行降序排序，从而获得对应的近义词词典。

技术领域

本发明涉及人工智能的语义解析技术领域，尤其涉及一种近义词挖掘方法、装置、设备及存储介质。

背景技术

通过现有的word2vec算法将上下文单词对应的词向量加总起来以预测中间词向量，并未考虑到上下文单词的顺序对预测中间词向量的作用，因而通过现有word2vec算法在进行近义词挖掘时并未考虑到近义词词性的作用。

发明内容

本发明的主要目的在于解决由于现有word2vec算法进行近义词挖掘并未考虑到近义词词性的作用导致预测精确度不足的技术问题。

为实现上述目的，本发明第一方面提供了一种近义词挖掘方法，包括：

获取用户输入问题语句中的目标词；

采用独热编码对所述目标词进行数据预处理，获得所述目标词对应的独热码；

将所述目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测，获得对应的中间词；

采用词嵌入模型对所述中间词进行向量表征，获得对应的中间词向量；

计算所述中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度，所述预置目标领域词表为目标领域检索语言语种的词典；