[发明专利]用于小型移动设备的深层神经机器翻译模型的压缩方法有效
申请号: | 202011212808.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112257469B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0495;G06N3/082 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 小型 移动 设备 深层 神经 机器翻译 模型 压缩 方法 | ||
本发明公开一种用于小型移动设备的深层神经机器翻译模型的压缩方法,步骤为:构建双语平行句对并转换为句子序列作为模型的输入;构建基于深层Transformer模型;使用构造的双语平行句对训练引入分组扰动策略的深层Transformer模型至收敛,作为教师模型;对教师模型进行采样,重组构建一个新的浅层Transformer模型作为压缩之后的中间子模型;使用教师模型对双语平行训练数据中的源语进行解码翻译,得到知识精炼数据;使用知识精炼数据微调从教师模型中采样得到的子模型至模型收敛作为最终结果用于小型移动设备。本发明方法进一步提高子模型的性能,在几乎不损失性能的情况下将编码端层数压缩至教师模型的1/8。
技术领域
本发明涉及一种深层翻译模型压缩技术,具体为用于小型移动设备的深层神经机器翻译模型的压缩方法。
背景技术
从广义上讲,翻译是指把一个事物转换成另一个事物的过程,自然语言的翻译则是指人类语言之间的转换,将一种语言转换为意思相同的另一种语言。一直以来,文字的翻译往往是由人工完成,而由计算机进行自动翻译的过程则称为机器翻译。尽管人工翻译准确率更高,但是在面临海量数据的浏览型任务翻译时则需要耗费大量的人力物力,此时机器翻译更具优势,使用机器翻译可能仅需要几小时或几分钟便可以完成,而且随着机器翻译技术的发展,机器翻译的准确度已经达到了与人工翻译可比的水平。
自20世纪40年代提出至今,机器翻译已经经历了近70年的发展,发展历史大致可以分为三个阶段:基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。神经机器翻译的概念出现在2013-2014年间,当时机器翻译领域的主流方法仍然是统计机器翻译。不过,有人也意识到了神经机器翻译在表示学习等方面的优势。对包括机器翻译在内的序列到序列问题进行了广泛而深入的研究,注意力机制等新的模型不断被推出。这使得神经机器翻译系统在翻译品质上逐渐体现出优势,神经机器翻译的研究吸引了更多的科研机构和企业的投入,神经机器翻译系统的翻译品质得到进一步提升。
目前基于自注意力机制的Transformer模型由于其高度并行性和强大的性能,在很多机器翻译任务上取得了最佳性能,是当今最主流的神经机器翻译框架。其采用编码-解码结构,编码端和解码端分别有多层堆叠的编码层和解码层组成,其中编码层包含注意力子层和前馈神经网络子层,在每层后应用了层正则化和残差连接,解码层相对于编码层多了一个编码解码注意力子层,用于学习双语之间的对齐关系并应用了编码层相同的层正则化操作和残差连接。
随着计算机算力和数据量的增加,在实际应用中对机器翻译质量的要求也越来越高。在传统机器学习的观点中,神经网络的性能不仅依赖于架构设计,同样与容量密切相关。常见的增加模型容量的方式为增加模型宽度或深度,这里主要研究的对象为深层网络。在Transformer架构下的深层网络是指通过堆叠更多的编码层来加深网络的深度,同时为了使深层Transformer模型能够正常训练需要对模型结构进行调整,即将编码层和解码层中层正则化的位置由每一个子层输出位置调整为子层输入位置,并在编码端和解码端的输出位置增加额外的层正则化操作。
然而随着模型容量的增加,模型所需要的存储空间也会增加,限制了其在资源受限的小设备上部署。同时模型增大也会消耗更多的计算资源,影响响应速度。因此如何将一个性能强大的深层神经机器翻译模型压缩为一个存储更小,响应速度更快的模型是十分重要的。
发明内容
针对深层神经机器翻译系统具有强大的性能,但同时由于其对计算资源和存储资源的消耗巨大,在资源受限的小设备难以部署,响应时间过长的问题,本发明提出一种用于小型移动设备的深层神经机器翻译模型的压缩方法,可以在几乎不影响性能的情况下,将编码端层数压缩至1/8,减少了模型存储空间,提高了模型的推断速度。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种用于小型移动设备的深层神经机器翻译模型的压缩方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212808.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多语言神经机器翻译性能提升方法
- 下一篇:一种方便对接调整的管道补偿器