[发明专利]一种神经网络模型的剪枝方法及装置有效
申请号: | 202010699771.X | 申请日: | 2020-07-20 |
公开(公告)号: | CN112749797B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 涂兆鹏;王文轩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 剪枝 方法 装置 | ||
本申请实施例提供了一种神经网络模型的剪枝方法及装置,涉及人工智能技术领域,该方法包括:在神经网络模型中设置筛选组件,筛选组件用于对目标隐藏层输出的数据特征进行筛选,通过对神经网络模型进行训练,获得每个筛选组件的通过率,进而基于筛选组件的通过率获得筛选组件对应的目标隐藏层对神经网络模型的影响程度,从而可以直观地获知神经网络模型内部结构的重要程度,提高模型的可解释性。基于各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理,从而一方面保证了神经网络模型的模型效果,另一方面压缩了神经网络模型大小,降低模型计算复杂度,加快了模型运行速度。
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种神经网络模型的剪枝方法及装置。
背景技术
随着深度学习的不断发展与演化,神经网络已经被广泛应用于语音识别、计算机视觉、自然语言处理等领域。例如,在机器翻译、视频监控、自动驾驶等实际应用中,神经网络取得了非常出色的表现。尽管如此,由于神经元之间存在复杂的非线性变换及其自身高维表示形式,理解神经网络模型如何工作,以及为什么这样工作变得比较困难,进而为调试神经网络模型以及设计新的神经网络模型带来了极大挑战。
近年来,有多项探索神经网络模型可解释性的方法被提出,比如,把神经网络模型作为黑盒子,通过解释模型输入输出行为的方式来分析模型的功能。虽然该方法可以分析到模型的一些规律,但是由于把模型当作黑盒子,只分析输入输出,故不能细粒度的分析模型内部的运行机理,导致很难对模型内部进行改进。
发明内容
本申请实施例提供了一种神经网络模型的剪枝方法及装置,用于基于神经网络内部的筛选组件的通过率对筛选组件对应的隐藏层进行剪枝处理。
一方面,本申请实施例提供了一种神经网络模型的剪枝方法,该方法包括:
基于文本样本数据对待训练神经网络模型进行训练,所述待训练神经网络模型中包括至少一个目标隐藏层和每个目标隐藏层对应连接的筛选组件,每个筛选组件根据通过率对连接的目标隐藏层输出的数据特征进行筛选并输出;
在训练过程中根据目标损失函数调整所述待训练神经网络模型的模型参数和各个筛选组件的通过率,并当训练结果达到目标损失时获得已训练神经网络模型;
根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理。
一方面,本申请实施例提供了一种智能翻译方法,该方法包括:
采用翻译模型对待翻译语句进行处理,获得所述待翻译语句的翻译结果,所述翻译模型为采用上述神经网络模型的剪枝方法剪枝后获得的模型。
一方面,本申请实施例提供了一种神经网络模型的剪枝装置,该装置包括:
训练模块,用于基于文本样本数据对待训练神经网络模型进行训练,所述待训练神经网络模型中包括至少一个目标隐藏层和每个目标隐藏层对应连接的筛选组件,每个筛选组件根据通过率对连接的目标隐藏层输出的数据特征进行筛选并输出;
处理模块,用于在训练过程中根据目标损失函数调整所述待训练神经网络模型的模型参数和各个筛选组件的通过率,并当训练结果达到目标损失时获得已训练神经网络模型;
剪枝模块,用于根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理。
可选地,所述目标损失函数包括所述待训练神经网络模型中各个筛选组件的通过率。
可选地,所述剪枝模块具体用于:
按照通过率从小到大的顺序对所述已训练神经网络模型中各个筛选组件进行排序,其中,筛选组件的通过率越大,筛选组件连接的目标隐藏层在所述目标翻译模型中的影响程度越大;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010699771.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:形成半导体结构的方法
- 下一篇:信息处理方法、装置及设备