[发明专利]神经网络模型压缩方法、语料翻译方法及其装置有效
申请号: | 201911019142.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110826344B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李响;孙于惠;姜佳良;崔建伟 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/08 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李志新;熊玉兰 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 压缩 方法 语料 翻译 及其 装置 | ||
本公开是关于一种神经网络模型压缩方法、语料翻译方法及其装置。其中神经网络模型压缩方法,包括:获取包括多个训练样本对的训练样本集,每一个训练样本对包括源数据和与源数据对应的目标数据;以源数据为输入,以目标数据为验证,训练原始教师模型;基于训练样本集以及原始教师模型,训练中间教师模型,一个或多个中间教师模型组成教师模型集;基于训练样本集、原始教师模型和教师模型集,训练多个候选学生模型,多个候选学生模型组成学生模型集;根据多个候选学生模型的训练结果,选择一个候选学生模型作为目标学生模型。通过引入多个教师模型,实现多级指导学生模型训练,从而提高了学生模型的质量。
技术领域
本公开涉及机器翻译领域,尤其涉及用于机器翻译的神经网络模型压缩方法、语料翻译方法及其装置,以及电子装置和计算机可读存储介质。
背景技术
随着人工智能技术的发展,基于神经网络的深度学习已经在图像分类,机器翻译和语音识别等多个机器学习任务上取得良好了的性能。
当前,为了获得最佳的网络模型输出结果,通常采用包含多个网络层和超大规模的参数的深层神经网络模型,尽管这种复杂的网络结构显著提升了模型的输出结果,但是也导致难以在存储空间较小的移动设备上部署,另一方面也导致在计算性能较差的低功耗移动设备上的推理延迟过大而难以具有实用价值。因此,对复杂神经网络模型进行高效压缩从而降低模型存储开销,提高模型推理速度,同时尽可能减少压缩对翻译质量的损害,成为将网络模型实际应用于移动端设备上的关键技术,也是当前学术界和工业界研究的热点。
对于神经网络模型压缩,常用的方法包括参数量化,矩阵分解,模型剪枝和知识蒸馏,其中知识蒸馏方法既可以压缩模型减小模型复杂度,又可以同时缓解模型压缩导致的预测精度下降的问题,成为目前主流的神经网络模型压缩方法。在知识蒸馏模型压缩方法中,一般将具有庞大规模参数和复杂网络结构的模型称为“教师模型”,将具有较少参数和结构相对简单的模型称为“学生模型”,通过获得教师模型在网络中间层的输出信息或者输出层的分类信息,利用教师模型产生的这些额外知识来指导学生模型的训练,其中训练一般采用KL散度等作为知识蒸馏的优化目标。
但是在知识蒸馏训练过程中都是采用一个教师模型指导一个学生模型这种单级知识蒸馏方法,由于教师模型的预测精度一般远优于学生模型,导致难以通过单级知识蒸馏将教师模型的知识有效迁移到学生模型,因此难以获得一个预测精度更优的神经网络学生模型用于移动端部署。
发明内容
为克服相关技术中存在的问题,本公开的第一方面,提供一种神经网络模型压缩方法,包括:获取包括多个训练样本对的训练样本集,每一个训练样本对包括源数据和与源数据对应的目标数据;以源数据为输入,以目标数据为验证,训练原始教师模型;基于训练样本集以及原始教师模型,训练一个或多个中间教师模型,一个或多个中间教师模型组成教师模型集;基于训练样本集、原始教师模型和教师模型集,训练多个候选学生模型,多个候选学生模型组成学生模型集;根据多个候选学生模型的训练结果,选择一个候选学生模型作为目标学生模型。
在一实施例中,其中任一中间教师模型的模型参数总数少于原始教师模型的模型参数总数。
在一实施例中,基于训练样本集以及原始教师模型,训练一个或多个中间教师模型,一个或多个中间教师模型组成教师模型集,包括:以源数据为输入,以复杂教师模型输出的伪目标数据为验证,训练每一个待训练的中间教师模型,其中,复杂教师模型为已完成训练的原始教师模型,或已完成训练且模型参数总数比当前待训练的中间教师模型的模型参数总数更多的其他中间教师模型。
在一实施例中,其中教师模型集中的一个或多个中间教师模型按各自的模型参数总数进行降序分级排列,使得后一级中间教师模型的模型参数总数少于前一级中间教师模型的模型参数总数,并且其中用于训练当前级的中间教师模型的复杂教师模型为已完成训练的原始教师模型或已完成训练的前面任一级中间教师模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911019142.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仿生贻贝胶及其制备方法
- 下一篇:用于岩石孔隙度的测量设备