[发明专利]文本对比方法、计算机设备及计算机存储介质在审
申请号: | 202210591024.3 | 申请日: | 2022-05-27 |
公开(公告)号: | CN115017879A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 黄何;毛瑞彬;朱菁;雷若琦;淮佳;张俊;杨建明 | 申请(专利权)人: | 深圳证券信息有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 对比 方法 计算机 设备 存储 介质 | ||
1.一种文本对比方法,其特征在于,所述方法包括:
获取目标文档和对比文档,计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率;
分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率;
提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率,包括:
获取预训练语言模型,根据所述目标文档和所述对比文档训练所述预训练语言模型,直至满足收敛条件时停止训练,得到文本表示向量模型;
根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量,根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落;
根据目标文档与对比文档之间的匹配关系,构建文本对匹配关系数据集,根据所述文本对匹配关系数据集训练所述预训练语言模型,得到文本对语义匹配模型;
根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量,包括:
将所述目标文档的段落集合以及所述对比文档的段落集合输入至所述文本表示向量模型,以使得所述文本表示向量模型分别提取所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量;
分别对所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量进行单位化,得到所述目标文档的各段落的单位化向量以及所述对比文档的各段落的单位化向量;
所述根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落,包括:
分别将所述目标文档的每一单位化向量与所述对比文档的单位化向量的集合进行矩阵计算,得到所述目标文档的每一单位化向量对应的多个分值;
分别从所述目标文档的每一单位化向量对应的多个分值中确定最大的K个分值,并将所述最大的K个分值对应的所述对比文档的段落确定为所述候选段落,其中K为正整数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标文档和所述对比文档训练所述预训练语言模型,直至满足收敛条件时停止训练,得到文本表示向量模型,包括:
将所述目标文档和所述对比文档输入至所述预训练语言模型以使所述预训练语言模型根据自监督学习算法进行模型训练,并输出所述目标文档的表征向量和所述对比文档的表征向量;
构建InfoNCE Loss损失函数,根据所述目标文档的表征向量和所述对比文档的表征向量计算InfoNCE Loss值,当InfoNCE Loss值满足预设数值范围时确定所述预训练语言模型的模型训练满足收敛条件,并停止所述预训练语言模型的模型训练,得到所述文本表示向量模型。
5.根据权利要求2所述的方法,其特征在于,所述预训练语言模型包括Transformer的双向编码器表示模型;
所述根据人工标注的目标文档与对比文档之间的匹配关系,构建文本对匹配关系数据集,根据所述文本对匹配关系数据集训练所述预训练语言模型,得到文本对语义匹配模型,包括:
构建所述目标文档的每一段落分别对应的文本对匹配关系数据集,所述文本对匹配关系数据集为所述目标文档的任一段落与所述对比文档的段落集合中每个段落之间的人工标注的信息集合;
基于所述文本对匹配关系数据集将所述目标文档的段落与所述对比文档的段落进行拼接,得到拼接段落,并在所述拼接段落添加CLS标志位和SEP标志位;
对添加CLS标志位和SEP标志位的所述拼接段落进行特征化并输入至所述Transformer双向编码器表示模型,以使得所述Transformer双向编码器表示模型的分类层对所述拼接段落的CLS标志位进行处理,得到所述Transformer双向编码器表示模型输出的标签的预测概率,根据所述预测概率计算二分类交叉熵损失函数LOSS值,当所述LOSS值满足收敛条件时得到所述文本对语义匹配模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司,未经深圳证券信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210591024.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资源转移方法和相关装置
- 下一篇:一种网络请求追踪方法、装置及设备