[发明专利]神经网络机器翻译方法、模型、电子终端以及存储介质有效
| 申请号: | 201910770197.X | 申请日: | 2019-08-20 |
| 公开(公告)号: | CN110472255B | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 王龙跃;王永;史树明;涂兆鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 骆苏华 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 机器翻译 方法 模型 电子 终端 以及 存储 介质 | ||
1.一种神经网络机器翻译方法,其特征在于,应用于神经网络机器翻译模型,所述神经网络机器翻译模型中包括编码器、领域变换网络模型以及解码器,所述方法包括:
获取待翻译的源端句子;
将所述源端句子输入至所述编码器;
所述编码器将源端句子编码生成共享表示,并将所述共享表示输入至所述领域变换网络模型;
所述领域变换网络模型将所述共享表示进行变换生成领域特定表示,并将所述领域特定表示输入至所述解码器;
所述解码器根据所述领域特定表示,生成目标端句子;
所述领域变换网络模型的训练过程包括:
从多个领域的训练集中确定各个批次的训练样本,每个批次的训练样本数量为一个领域的训练集的批量数;
确定所述神经网络机器翻译模型的训练目标;
基于所述训练目标对每个批次的训练样本进行训练的过程中对所述领域变换网络模型的参数进行优化,获取最优的领域变换网络模型的参数;
基于所述最优的领域变换网络模型的参数组成的领域变换网络模型为训练好的领域变换网络模型。
2.根据权利要求1所述的方法,其特征在于,所述从多个领域的训练集中确定各个批次的训练样本,包括:
根据多项式分布从所述多个领域的训练集中进行采样,确定各个批次的训练样本,其中,所述多项式分布为:
{qi}i=1,...,N;
其中,
pi是第i个领域的训练集的批量数占所有领域的批量数的比例;qi是对pi进行平滑后的比例,用于增大过小的pi;N是领域的数量,ni是第i个领域的训练集的批量数,α=0.7是平衡系数。
3.根据权利要求1所述的方法,其特征在于,所述确定所述神经网络机器翻译模型的训练目标,包括:
将与目标批次的训练样本对应的领域教师模型产生的软目标分布和该批次中每个训练样本的目标句子的硬分布进行线性插值,生成所述神经网络机器翻译模型的训练目标;
生成的所述神经网络机器翻译模型的训练目标为:
其中,是每个训练样本的目标句子的硬分布,用于表示输入为x、输出为y的概率,训练样本中包括源端句子x=x1,...,xI以及目标端句子y=y1,...,yJ;D表示的是所有的训练集,所述θ为所述领域变换网络模型的参数;
λ和β均为常数,且λ+β=1;
是教师模型产生的软目标分布;
|V|是目标语言的字典的词的数目;
表示输入为x、输出为y的交叉熵目标函数以及领域教师模型作为监督的交叉熵目标函数的线性组合。
4.根据权利要求3所述的方法,其特征在于,所述确定所述神经网络机器翻译模型的训练目标,包括:
生成的所述神经网络机器翻译模型的训练目标为:
其中,是对抗领域判别器被增加到领域变换网络模型的输入中之后的训练目标;d是领域的标识,是softmax分类器的权值,是编码器输出的带权值的共享表示,α通过使用可训练的查询向量利用全局的注意力机制得到;Hi是编码器输出的原始的共享表示;
是领域判别器被增加到领域判别网络模型的输出中之后的训练目标;
d是领域的标识,是softmax分类器的权值,是领域神经网络模型输出的带权值的领域特定表示;
δ是平衡系数,H(·)是对抗领域分类器的N个领域标签的概率分布的熵;
{θ,γ}和ψ为所述领域变换网络模型的参数。
5.根据权利要求1所述的方法,其特征在于,所述领域变换网络模型是由残差网络以及采用多头注意力训练机制的神经网络组合生成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910770197.X/1.html,转载请声明来源钻瓜专利网。





