[发明专利]翻译模型的训练方法、装置、电子设备及存储介质在审
申请号: | 202310886208.7 | 申请日: | 2023-07-19 |
公开(公告)号: | CN116611459A | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 陈小帅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F18/213;G06F18/214;G06F18/241;G06N3/0455;G06N3/0499;G06N3/044;G06N3/084 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;王黎延 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种翻译模型的训练方法,其特征在于,所述方法包括:
获取第一训练集,其中,所述第一训练集包括多个第一文本对,其中,所述第一文本对包括第一原始文本和第一翻译文本,且所述第一原始文本与所述第一翻译文本的情感限定一致;
获取所述第一原始文本对应的音频数据,从所述第一原始文本对应的音频数据提取第一音频特征;
获取所述第一原始文本的第一文本特征;
基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理,得到第一预测文本;
基于所述第一预测文本和所述第一翻译文本确定所述翻译模型的第一预测损失;
基于所述第一预测损失更新所述翻译模型的参数。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述第一预测损失更新所述翻译模型的参数之前,所述方法还包括:
通过以下方式预训练所述翻译模型:
获取第二训练集,其中,所述第二训练集包括多个第二文本对,所述第二文本对包括第二原始文本和第二翻译文本;
获取所述第二原始文本的第二文本特征;
基于所述第二原始文本的第二文本特征调用所述翻译模型进行文本翻译处理,得到第二预测文本;
基于所述第二预测文本和所述第二翻译文本确定所述翻译模型的第二预测损失;
基于所述第二预测损失更新所述翻译模型的参数。
3.根据权利要求1所述的方法,其特征在于,所述获取第一训练集,包括:
获取多个候选文本对,其中,所述候选文本对包括候选原始文本和候选翻译文本;
基于所述候选文本对调用语言模型进行比较,得到表征所述候选原始文本和所述候选翻译文本是否情感限定一致的比较结果,其中,所述情感限定一致的条件包括以下至少之一:所述候选原始文本和所述候选翻译文本表达的情感一致,所述候选原始文本和所述候选翻译文本的语句结构一致,所述候选原始文本和所述候选翻译文本的节奏一致;
将多个情感限定一致的候选文本对作为所述第一文本对,以组合为所述第一训练集。
4.根据权利要求1所述的方法,其特征在于,所述从所述第一原始文本对应的音频数据提取第一音频特征,包括:
从所述音频数据提取多个音频帧,针对每个所述音频帧执行以下处理:
对所述音频帧进行傅里叶变换,得到所述音频帧的多个频谱图;
将所述音频帧的多个频谱图分别映射为多个梅尔频谱特征;
将多个梅尔频谱特征组合为所述音频帧的音频特征;
将所述多个音频帧的音频特征连接为所述音频数据的第一音频特征。
5.根据权利要求1所述的方法,其特征在于,所述获取所述第一原始文本的第一文本特征,包括:
对所述第一原始文本进行标记化处理,得到标记序列,其中,所述标记序列包括多个标记;
对所述标记序列中每个标记进行嵌入处理,得到对应的嵌入向量;
将所述每个标记对应的嵌入向量连接为所述第一原始文本的第一文本特征。
6.根据权利要求5所述的方法,其特征在于,
所述第一原始文本是视频的字幕,所述音频数据是从所述视频中的音频轨道提取的。
7.根据权利要求1所述的方法,其特征在于,
所述翻译模型包括第一编码器和解码器;
所述基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理,得到第一预测文本,包括:
基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述第一编码器进行编码处理,得到中间特征向量;
在所述解码器的每个时间步执行以下处理:基于所述中间特征向量、当前时间步之前的时间步预测输出的字符,调用所述解码器进行解码处理,得到当前时间步预测输出的字符;
将每个时间步预测输出的字符组合为第一预测文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310886208.7/1.html,转载请声明来源钻瓜专利网。