[发明专利]编码器模型的训练方法及存储介质、相似度预测方法及系统有效
申请号: | 202210360834.8 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114490950B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 肖清;赵文博;李剑锋;许程冲;周丽萍 | 申请(专利权)人: | 联通(广东)产业互联网有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 广州润禾知识产权代理事务所(普通合伙) 44446 | 代理人: | 郑永泉;欧秋望 |
地址: | 510000 广东省广州市黄埔区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码器 模型 训练 方法 存储 介质 相似 预测 系统 | ||
本发明提供编码器模型的训练方法及存储介质、相似度预测方法及系统,包括:将两个文本序列输入嵌入层得到文本序列向量;将两个文本序列向量输入孪生神经网络编码器模型,以使其基于相同的神经网络参数确定隐状态;根据神经网络参数构造自监督损失函数;将隐状态输入池化层以使其根据隐状态进行池化处理,根据池化处理后的文本序列向量确定两个文本序列的相似度,并以其构造有监督损失函数;根据自监督和有监督损失函数确定损失函数,以更新神经网络参数;继续将新的文本序列输入直至损失函数的数值为最小值。该方法大幅提高了模型在计算文本序列相似度时的推理带宽,且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。
技术领域
本发明涉及文本相似度领域,更具体地,涉及编码器模型的训练方法及存储介质、相似度预测方法及系统。
背景技术
文本相似度是指衡量两个文本的相似程度,应用的场景包括有文本分类、聚类、文本主题检测、主题跟踪、机器翻译等等。更具体地,在语音通信场景对通话线路进行监管也会要求确定文本之间的相似度,但语音通信场景中获取到的对话内容噪声大、夹杂口音、信息完整度不足,在现有技术中判断对话内容是否相似时需要依赖人工抽检,耗费大量人力和时间,且人工抽检存在的问题是抽检覆盖面较小,且人工检测存在主观性较强的问题,无法全面准确地检测出对话内容的相似性,因此通话线路监管的可信性和准确性也较低。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供编码器模型的训练方法及存储介质、相似度预测方法及系统,用于解决现有技术中在确定文本相似度时依赖人工抽检,存在检测覆盖面小且主观性较强的问题。
本发明采用的技术方案包括:
第一方面,本发明提供一种深度神经网络编码器模型的训练方法,包括:对两个不同的文本序列执行训练操作;所述训练操作为:将两个所述文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入孪生神经网络编码器模型,以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态;同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度;根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数;根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,以使所述神经网络编码器模型根据所述损失函数更新神经网络参数;继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值,得到已训练的神经网络编码器模型。
第二方面,本发明提供一种文本序列的相似度预测方法,将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型,以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理;根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。
第三方面,本发明提供一种文本序列的相似度预测系统,包括:词输入模块、词嵌入模块、由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块;所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列,并将其输出至所述词嵌入模块;所述词嵌入模块用于将两个所述文本序列进行向量化,得到两个文本序列向量并将其输出至所述神经网络编码器模型;所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态,并将其输出至隐状态池化模块;所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,并将池化处理后的文本序列向量输出至向量相似度计算模块;所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联通(广东)产业互联网有限公司,未经联通(广东)产业互联网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210360834.8/2.html,转载请声明来源钻瓜专利网。