[发明专利]近义词挖掘方法、装置、设备及存储介质在审
申请号: | 202010149502.6 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111401043A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 方春华 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/247;G06F40/284;G06F40/216 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近义词 挖掘 方法 装置 设备 存储 介质 | ||
1.一种近义词挖掘方法,其特征在于,包括:
获取用户输入问题语句中的目标词;
采用独热编码对所述目标词进行数据预处理,获得所述目标词对应的独热码;
将所述目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测,获得对应的中间词;
采用词嵌入模型对所述中间词进行向量表征,获得对应的中间词向量;
计算所述中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度,所述预置目标领域词表为目标领域检索语言语种的词典;
将所述预置目标领域词表中的每一个单词根据计算得到的对应相似度进行降序排序,获得对应的近义词词典。
2.根据权利要求1所述的近义词挖掘方法,其特征在于,在所述获取用户输入问题语句中的目标词之前,包括:
获取目标领域问题库中的待训练问题,并将每一条待训练问题进行切词处理,获取对应的上下文单词,所述待训练问题中包含不同词性的词语;
采用独热编码对所述上下文词块进行数据预处理,获得所述上下文单词对应的独热码;
将每一个所述上下文单词对应的独热码乘以输入权重矩阵,得到对应的词向量;
将每一个所述上下文单词对应的词向量进行向量拼接,得到所述上下文单词对应的拼接向量;
将所述上下文单词对应的拼接向量输入连续词袋模型,输出得到独热编码的中间词;
将所述中间词对应的独热码乘以输出权重矩阵,得到对应的中间词向量;
使用激活函数处理所述中间词向量得到对应的概率分布,获取概率最大的值对应的单词作为预测得到的中间词;
采用预置损失函数计算所述预测得到的中间词与所述独热编码的中间词之间的误差,直至得到对应的最小的函数值,得到对应的预置连续词袋模型。
3.根据权利要求2所述的近义词挖掘方法,其特征在于,在所述采用预置损失函数计算所述预测得到的中间词与所述独热编码的中间词之间的误差,直至得到对应的最小的函数值,得到对应的预置连续词袋模型之后,所述方法还包括:
根据所述预置损失函数计算得到的函数值,采用梯度下降算法更新所述输入权重矩阵、输出权重矩阵,得到更新的输入权重矩阵、以及更新的输出权重矩阵。
4.根据权利要求2所述的近义词挖掘方法,其特征在于,所述预置损失函数为:
其中,L(θ)表示损失函数值;
S表示第S个句子;
Tj表示第j个句子的目标词个数;
表示路径k中第i个非叶子结点对应的向量;
表示上下文单词进行拼接的的词向量;
表示路径k中第i个结点对应的编码。
5.根据权利要求1所述的近义词挖掘方法,其特征在于,所述相似度为余弦距离、曼哈顿距离、相关系数以及马氏距离中的至少一种。
6.根据权利要求1-5任一项所述的近义词挖掘方法,其特征在于,所述获取用户输入问题语句中的目标词具体包括:
将所述用户输入问题语句中除设定标点符号以外的标点符号去除,并对所述用户输入问题语句进行切词处理,得到对应的目标词,所述目标词为待挖掘近义词的单词,所述设定标点符号包括用于表达所述用户输入问题语句的语气的标点符号、语句结束的标点符号中的至少一种。
7.一种近义词挖掘装置,其特征在于,包括:
目标词获取模块,用于获取用户输入问题语句中的目标词;
独热码获取模块,用于采用独热编码对所述目标词进行数据预处理,获得所述目标词对应的独热码;
中间词获取模块,用于将所述目标词对应的独热码输入预置连续词袋模型进行向量表征及中间词预测,获得对应的中间词;
中间词向量获取模块,用于采用词嵌入模型对所述中间词进行向量表征,获得对应的中间词向量;
相似度计算模块,用于计算所述中间词向量与预置目标领域词表中每一个单词对应词向量之间的相似度,所述预置目标领域词表为目标领域检索语言语种的词典;
近义词词典获取模块,用于将所述预置目标领域词表中的每一个单词根据计算得到的对应相似度进行降序排序,获得对应的近义词词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010149502.6/1.html,转载请声明来源钻瓜专利网。