[发明专利]神经网络的训练方法和装置在审
申请号: | 202011322834.6 | 申请日: | 2020-11-23 |
公开(公告)号: | CN114528968A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 刘大勇;黄泽毅 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 周乔;王君 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 装置 | ||
本申请涉及人工智能领域,提供了一种神经网络的训练方法和装置,可以实现在迭代步维度对神经网络的参数组进行细粒度控制,在训练加速的同时提升了训练精度。该方法包括:获取待训练的神经网络;对待训练的神经网络的参数进行分组,以得到M组参数,M为大于或等于1的正整数;获取采样概率分布和训练迭代步排布方式,采样概率分布用于表征在每个训练迭代步中M组参数中的每组参数被采样的概率,训练迭代步排布方式包括间隔排布和周期排布;根据采样概率分布和训练迭代步排布方式,对被采样的参数组冻结或停更;根据被冻结的参数组或被停更的参数组对待训练的神经网络进行训练。
技术领域
本申请涉及人工智能领域,具体的,涉及一种神经网络的训练方法和装置。
背景技术
深度学习技术在计算机视觉中取得了巨大进展,以图形识别为例,深度神经网络模型自2012年就以巨大的优势在ImageNet大规模图形识别竞赛(ImageNet large scalevisual recognition challenge,ILSVRC)中领先传统计算机视觉方法。ImageNet(ILSVRC2012)数据集大约有128万多张图片,使用ResNet50神经网络在8块V100计算卡上训练90轮大约需要8小时。OpenAI发布的GPT-3模型大约有1750亿个参数,使用45TB的数据进行训练,训练一次需要花费1300万美元。随着数据集规模越来越大,网络模型参数越来越多,在获得了更高精度的模型的同时,训练模型所花费的时间和金钱也越来越多。因此如何加速神经网络的训练,成为亟待解决的问题。
发明内容
本申请提供一种神经网络的训练方法和装置,可以实现在迭代步维度对神经网络的参数组进行细粒度控制,在训练加速的同时提升了训练精度。
第一方面,提供了一种神经网络的训练方法,该方法包括:获取待训练的神经网络;对待训练的神经网络的参数进行分组,以得到M组参数,M为大于或等于1的正整数;获取采样概率分布和训练迭代步排布方式,采样概率分布用于表征在每个训练迭代步中M组参数中的每组参数被采样的概率,训练迭代步排布方式包括间隔排布和周期排布;根据采样概率分布和训练迭代步排布方式,对被采样的参数组冻结或停更;根据被冻结参数组或被停更的参数组对待训练的神经网络进行训练。
本申请实施例的神经网络的训练方法在迭代步的维度对神经网络的参数组进行处理,实现对加速过程的细粒度控制,在训练加速的同时,提升训练精度。通过训练迭代步排布方式和采样概率分布对参数组进行采样和处理,在训练开销和训练精度之间可以更加灵活地选择,例如可以根据每一组参数的具体开销占比确定相应的采样概率。
结合第一方面,在一些可能的实现方式中,根据采样概率分布和训练迭代步排布方式,对被采样的参数组冻结或停更,包括:根据训练迭代步排布方式确定第一迭代步,第一迭代步为待采样的迭代步;根据采样概率分布确定第一迭代步中被采样的第m组参数,m小于或等于M-1;冻结第一迭代步中的第m组参数至第一组参数,冻结第一迭代步中的第m组参数至第一组参数表示对第m组参数至第一组参数不进行梯度计算,不进行参数更新。
根据采样概率分布确定部分参数组进行冻结,不进行梯度计算,不进行参数更新,由此可以实现对神经网络训练的加速。对于冻结的参数组,在一个周期内,后续迭代步的参数组无需用到之前被冻结参数组的参数,由此可以避免动量偏移的问题。
结合第一方面,在一些可能的实现方式中,根据采样概率分布和训练迭代步排布方式,对被采样的参数组冻结或停更,包括:根据训练迭代步排布方式确定第一迭代步,第一迭代步为待采样的迭代步;根据采样概率分布确定第一迭代步中被采样的第m组参数,m小于或等于M-1;停更第一迭代步中的第m组参数至第一组参数,停更第一迭代步中的第m组参数至第一组参数表示对第m组参数至第一组参数进行梯度计算,不进行参数更新。
根据采样概率分布确定部分参数组进行冻结,进行梯度计算,但不进行参数更新,由此可以实现对神经网络训练的精度提升。对于停更的参数组,依然进行梯度计算,使后续的迭代步的相应参数组的参数可以保持更新,由此可以避免动量偏移的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011322834.6/2.html,转载请声明来源钻瓜专利网。