[发明专利]一种基于多套语料库的机器翻译模型蒸馏方法在审
申请号: | 202211341973.2 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115392269A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 朱胜;褚佳文;何国华 | 申请(专利权)人: | 南京万得资讯科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06K9/62 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 210019 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语料库 机器翻译 模型 蒸馏 方法 | ||
本发明提供了一种基于多套语料库的机器翻译模型蒸馏方法。本发明使用多套语料库巧妙避免了在蒸馏模型训练时还需要进行BeamSearch搜索,因为在训练伊始,教师模型的翻译结果便已经被知晓,所以不必再保留大量中间结果,这极大降低了对内存的消耗。模型蒸馏时,本发明不再需要边教师模型推理,边训练学生模型,这样显著提升了训练速度。同时,在本发明所公开的技术方案中,由于多套语料库的存在使得对不同蒸馏方案的实现也变得简单。这些问题的克服使得对机器翻译模型进行蒸馏成为了可能。
技术领域
本发明涉及一种运行高效、多种蒸馏方案可灵活配置、基于多套语料库的机器翻译模型蒸馏方法,属于涉及NLP(NaturalLanguageProcessing,自然语言处理)等的人工智能机器翻译技术领域。
背景技术
机器翻译技术是一种利用计算机将一种自然语言转换为另一种自然语言的技术。近些年随着人工智能技术的发展,机器翻译技术得到长足进步。特别是2017年,由谷歌提出的基于注意力机制的transformer模型很好地解决了序列模型中存在的问题,极大提升了翻译效果。但是随之而来的问题是:模型越来越大,参数规模从1亿直接飙升至1750亿左右,训练这种模型对计算和存储资源提出的要求已经不是普通实验室能够满足和负担。同时,大模型上线之后,在不增加服务资源的情况下,推理速度会变慢,处理大量数据的能力会变低,用户体验会变差,这极大地限制了此类模型的应用。
一)知识蒸馏框架
因此在不损失或者少损失模型翻译效果的前提下,对模型进行适当压缩,是模型在工程部署时必须要面对的问题。2015年Geoffrey Hinton在论文《Distilling theKnowledge in a Neural Network》中提出了知识蒸馏的思想:即通过将与教师模型(复杂、预测精度更高、但部署困难)Soft-Target有关的交叉熵损失函数纳入到总损失函数中,以引导学生模型(复杂度低、更适合部署)的训练,实现重要知识从教师模型迁移到学生模型中来。具体步骤如下:
1.正常训练模型,得到教师模型。
2.原训练数据再放入教师模型中,将Softmax层的输出作为Soft-Target(对应当前输入条件下,词典中每个词的出现概率)。
3.原训练数据放入学生模型中,Softmax层输出一组概率值P,将该结果与教师模型产生的Soft-Target做交叉熵,得到;将概率值P与已知的GroundTruth做交叉熵,得到(Negative Log-Likelihood,负对数似然函数)。
4.按加权求和公式计算总损失值,,其中。
5.完成学生模型的训练后,用学生模型单独进行部署和推理。
二)机器翻译中的BeamSearch
使用编码器-解码器结构的机器翻译系统在推理时会有搜索最合理翻译结果的过程,而BeamSearch是目前被最广泛使用的搜索算法。我们以机器翻译系统将英文“Ilikeeatingapples”翻译成中文为例,来解释BeamSearch算法的工作原理。
如图 2所示,待翻译英文序列经过编码器编码后输入解码器,希望解码器能寻找一个中文词序列以使得如下条件概率最大:
假设词典大小为10000,K(BeamWidth,束宽)为3,解码器使用BeamSearch算法来寻找合适的中文序列的过程如下:
1.通过模型计算第一个时间步长的输出的分布概率,从词典10000个词中选择概率最大的前K个词作为候选结果。当K=3时,选出来的词按概率大小排列分别是:“我”、“苹果”、“吃”。
2.BeamSearch已经选出了第一个时间步长的输出的三个最可能选择,然后针对这三个词分别计算各自的第二个输出词的概率。例如:针对“我”,解码器将“我”作为第二个时间步长的输入,寻找以使得的概率最大,具体的方法是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211341973.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多速率仿真方法及系统
- 下一篇:换热装置及布雷顿循环系统