[发明专利]一种基于多套语料库的机器翻译模型蒸馏方法在审
申请号: | 202211341973.2 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115392269A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 朱胜;褚佳文;何国华 | 申请(专利权)人: | 南京万得资讯科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06K9/62 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 210019 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语料库 机器翻译 模型 蒸馏 方法 | ||
1.一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,包括以下步骤:
步骤1、用组成的语料库训练教师模型,其中,是待翻译序列,长度为
步骤2、蒸馏系统的教师模型使用BeamSearch算法翻译待翻译序列
步骤3、用创建一套新的语料库;
步骤4、将用组成的语料库输入蒸馏系统的学生模型,在学生模型中计算损失;
步骤5、将用创建的语料库分别输入教师模型以及学生模型,在教师模型中获取Soft-Target,在学生模型中获取当前输入条件下的词典中各词的出现概率,然后基于Soft-Target以及学生模型获取的出现概率计算损失;
步骤6、基于步骤4获得的损失以及步骤5获得的损失计算得到总损失,然后完成误差的反向传播,其中,教师模型不参与反向传播;
步骤7、完成学生模型的训练后,用学生模型单独作为机器翻译器进行部署,由机器翻译器对实时输入的语料进行推理和翻译,从而获得翻译后的语料。
2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤4中,所述损失的计算方法是:
式中:是所有可能的翻译序列的集合,是翻译输出序列,长度为
3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤5中,所述损失的计算方法是:
式中,表示在输入待翻译序列
4.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,所述总损失为所述损失和所述损失的线性组合。
5.如权利要求4所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤6中,所述总损失,其中。
6.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤1中,用组成的语料库训练N个教师模型,N≥2;
步骤2中,N个教师模型均使用BeamSearch算法翻译待翻译序列
步骤3中,用创建N套新的语料库;
步骤5中,分别用创建的N套语料库分别输入同一学生模型,在与当前一套语料库对应的教师模型中获取Soft-Target,并且在相对应的学生模型中获取当前输入条件下的词典中各词的出现概率后,计算获得与每个教师模型所对应的损失,则最终得到的损失,其中,
7.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤2中、教师模型使用的BeamSearch算法所设置的K值较大;
在所述步骤3之后,且在所述步骤4之前还包括以下步骤:
a)教师模型使用K值设置较小的BeamSearch算法翻译
b)用创建一套新的语料库;
c)用创建的语料库直接训练蒸馏系统的学生模型,将完成训练后的学生模型纳入到蒸馏系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211341973.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多速率仿真方法及系统
- 下一篇:换热装置及布雷顿循环系统