[发明专利]文本相似度确定方法、装置、设备和介质有效
申请号: | 202010537008.7 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111737954B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 余晓峰;瞿康;韩友;郑立涛 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/194;G06F18/22;G06N3/048;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 设备 介质 | ||
1.一种文本相似度确定方法,包括:
利用孪生网络结构中的两个特征提取网络,计算目标文本中每个词的语境化词向量,并对所述每个词的语境化词向量进行加权求和,得到所述目标文本的句嵌入;其中,所述特征提取网络为transformer网络;所述目标文本包括第一输入文本和第二输入文本;所述语境化词向量为词在transformer网络中各层表征的加权和;所述特征提取网络是利用词在网络中各层表征并通过区分词在文本中的重要性对文本进行编码;
通过计算所述第一输入文本和第二输入文本的句嵌入之间的相似度,确定所述第一输入文本和第二输入文本的相似度;其中,所述每个词的语境化词向量所对应的权重,由每个词的贡献矩阵的对角线方差与各词的贡献矩阵的对角线方差之和的比值确定;
其中,所述贡献矩阵按照如下方式定义:
第j个词w(j)的贡献矩阵G中,每个矩阵元素gij的值为w(j)在所述transformer网络中第i层的表征与第j层的表征的相似度,其中,i和j均为自然数。
2.根据权利要求1所述的方法,其中,所述两个特征提取网络共享网络参数。
3.根据权利要求1所述的方法,其中,所述词在transformer网络中各层表征所对应的权重,为各层中用于衡量词在文本中重要程度的参数的综合权重,所述参数至少包括对齐相似度和新颖度。
4.一种文本相似度确定装置,包括:
句嵌入获取模块,用于利用孪生网络结构中的两个特征提取网络,计算目标文本中每个词的语境化词向量,并对所述每个词的语境化词向量进行加权求和,得到所述目标文本的句嵌入;其中,所述特征提取网络为transformer网络;所述目标文本包括第一输入文本和第二输入文本;所述语境化词向量为词在transformer网络中各层表征的加权和;所述特征提取网络是利用词在网络中各层表征并通过区分词在文本中的重要性对文本进行编码;
相似度确定模块,用于通过计算所述第一输入文本和第二输入文本的句嵌入之间的相似度,确定所述第一输入文本和第二输入文本的相似度;
其中,所述每个词的语境化词向量所对应的权重,由每个词的贡献矩阵的对角线方差与各词的贡献矩阵的对角线方差之和的比值确定;
其中,所述贡献矩阵按照如下方式定义:
第j个词w(j)的贡献矩阵G中,每个矩阵元素gij的值为w(j)在所述transformer网络中第i层的表征与第j层的表征的相似度,其中,i和j均为自然数。
5.根据权利要求4所述的装置,其中,所述两个特征提取网络共享网络参数。
6.根据权利要求4所述的装置,其中,所述词在transformer网络中各层表征所对应的权重,为各层中用于衡量词在文本中重要程度的参数的综合权重,所述参数至少包括对齐相似度和新颖度。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的文本相似度确定方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的文本相似度确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010537008.7/1.html,转载请声明来源钻瓜专利网。