[发明专利]用于小型移动设备的深层神经机器翻译模型的压缩方法有效
申请号: | 202011212808.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112257469B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0495;G06N3/082 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 小型 移动 设备 深层 神经 机器翻译 模型 压缩 方法 | ||
1.一种用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于包括以下步骤:
1)处理训练数据,对其进行清洗、分词和子词切分操作,构建双语平行句对,并将其转换为用词嵌入表示的句子序列,句子序列与位置编码累加后,作为模型的输入;
2)构建基于深层Transformer模型,引入分组扰动策略,将其编码层划分为多组,不同的训练批次时组内编码层之间的顺序随机打乱,即具有完全随机的信息传递顺序;
3)使用构造的双语平行句对训练引入分组扰动策略的深层Transformer模型至收敛,使其作为教师模型;
4)对训练好的教师模型进行采样,即从每一个编码层组中随机抽取一层,重组构建一个新的浅层Transformer模型作为压缩之后的中间子模型;
5)使用教师模型对双语平行训练数据中的源语进行解码翻译,得到由教师模型翻译的目标语,和真实双语数据的源语组合构造新的双语平行句句对,作为知识精炼数据;
6)使用知识精炼数据微调从教师模型中采样得到的子模型至模型收敛作为最终结果用于小型移动设备。
2.按权利要求1所述的用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于:步骤2)中构建深层Transformer模型,通过将每一个编码层和解码层中的层正则化的位置提前,置于每一个子层的输入,并在编码端和解码端输出时额外增加层正则化操作,即pre-norm,其公式如下:
si+1=si+sublayer(layer_norm(si))
其中si为当前子层的输入,si+1为当前子层的输出,即下一子层的输入,sublayer为当前子层的计算函数,layer_norm为层正则化函数。
3.按权利要求2所述的用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于在pre-norm形式下,编码层的计算流程为:
对于输入该编码层的向量进行层正则化操作,归一化输入的均值和方差后将其输入自注意力机制子层,在自注意力机制中,模型计算针对每一个位置的单词计算该单词和句子中所有单词的相关性系数,并对该系数进行归一化处理,对句子中所有位置的单词表示进行加权求和得到该位置单词的进一步的抽象表示;
将上一步得到的抽象表示与进行层正则化操作之前的输入进行残差连接;
将残差连接计算得到的输出进行层正则化操作后送入前馈神经网络子层,进行计算,将其结果与自注意力子层的输出相加后,传递给下一个编码层;
在此基础上引入分组扰动策略,假设深层Transformer模型共有m层编码层,最终希望将其压缩为n层,则将当前深层Transformer模型的编码层分为n组,每组具有m/n个编码层。
4.按权利要求2所述的用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于:步骤4)中,子模型的构建方法为从深层transformer模型中的每一个编码层组中随机抽取一层,使用一层代替一个编码组,共有n组则抽取n个编码层,与深层模型的解码端组成子模型。
5.按权利要求1所述的用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于步骤5)中,知识精炼数据的构建为:
使用已经训练收敛的深层Transformer翻译模型作为教师模型,使用其对训练数据的源语进行推断翻译,得到机器翻译的结果作为目标语;
将目标语与源语重新组合,将其转变为连续向量表示。
6.按权利要求1所述的用于小型移动设备的深层神经机器翻译模型的压缩方法,其特征在于:步骤6)中,对从教师模型中随机抽层采样得到的子网络重置优化器状态,回调学习率至峰值,以便于模型快速收敛;
使用由教师模型得到的知识精炼数据微调子模型,使其充分学习教师模型中所蕴含的知识,以达到与教师模型相近的性能,最终用于小型移动设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212808.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多语言神经机器翻译性能提升方法
- 下一篇:一种方便对接调整的管道补偿器