[发明专利]一种面向神经网络异步训练的学习率调整方法有效

专利信息
申请号: 202110254554.4 申请日: 2021-03-09
公开(公告)号: CN112861991B 公开(公告)日: 2023-04-14
发明(设计)人: 李尹健;卢宇彤 申请(专利权)人: 中山大学
主分类号: G06F18/214 分类号: G06F18/214;G06F17/16;G06N3/0464;G06N3/08
代理公司: 深圳市创富知识产权代理有限公司 44367 代理人: 高冰
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 神经网络 异步 训练 学习 调整 方法
【说明书】:

发明公开了一种面向神经网络异步训练的学习率调整方法,所述方法包括以下步骤:初始化参数;将神经网络的参数发送给所有空闲的计算节点;直到已经接收了c个计算结果;对于c个接收的计算梯度,分别调整它们的学习率;使用步骤S4中得到的学习率和接收的c个梯度,对网络进行一步梯度下降的更新;判断网络精度是否满足要求。若已达到要求,则完成训练,将回应2发送给所有计算节点,退出;否则回到步骤B,并将回应1发送给所有本轮计算完成的节点,进行下一轮循环的训练。本发明的有益效果在于,延迟梯度的学习率不再会随着数目的增多而线性上升,同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小,将整体的学习率调整得更加平衡、更加科学。

技术领域

本发明属于人工智能-神经网络优化技术研究技术领域,特别涉及一种面向神经网络异步训练的学习率调整方法。

技术背景

随着当前的数据集日趋膨胀,训练的模型(如深度神经网络)的参数也越来越多,随机梯度下降优化(SGD)成为了当前有监督学习算法的核心。

这种训练方法是由若干次的循环优化构成的。在每一轮循环中,在训练集中随机抽取若干个样本,让它们通过神经网络,根据神经网络对它们的计算结果和实际结果的差距计算损失(LOSS);然后根据这个损失对网络进行反向传播,计算神经网络中每个参数对于损失的梯度,最终根据该梯度对参数进行优化。

在若干次这样的循环优化后,神经网络的损失会越来越小,每次的计算结果与真实结果越来越接近,即完成了训练。

本发明注重的是在多设备、多异构节点的分布式环境下对神经网络的训练过程进行加速。目前广泛采用的分布式优化方法是参数服务器法。具体而言,是将神经网络的参数存放在一个服务器中。在每轮计算循环中数服务器将网络参数发送给所有的计算节点;然后每个计算节点随机抽取样本,计算损失和梯度,并将计算的梯度发回给参数服务器;参数服务器在接收了若干计算节点的结果后进行综合,计算得到一个平均的梯度,并根据这个梯度对网络进行优化,完成一轮循环。

根据服务器更新参数的频率,参数服务器法可以分为异步和同步两种。同步训练法中,参数服务器需要接收完所有的计算节点的结果后才进行参数更新,将最新的网络参数发回给所有计算节点,完成该轮训练。而在异步训练法中,参数服务器每轮训练仅需要等待一部分节点计算完成,就可以进行参数更新、发回最新参数。

对于异步训练法,由于节点间不再需要相互等待,因此每个计算节点在计算的过程中,服务器的参数往往已经被其它计算节点更新了,导致节点的计算结果与当前服务器的全局网络应当得到的结果不同。这期间服务器被更新的次数被称为梯度延时,同时参与计算的节点越多,平均梯度延时就会越大,误差也会越大。梯度延时的存在,不仅会降低模型最终的精确率,更会降低模型的收敛速度,在严重的时候甚至会直接导致模型无法收敛。

现有的方法,对延迟梯度的处理的方法过于简单,仅仅除以它的延迟就作为最终的学习率进行更新了。这样做存在以下几个问题:

1、数值设定没有确切的理论依据,而仅仅是启发式地进行设定。并且其中的超参数也难以界定,只能通过实验来选择。

2、这类方法忽略了其它影响因素,如minibatch大小、当前minibatch中其余梯度的延迟带来的影响。

3、这类方法仅仅线性地将旧梯度的效果等同于新梯度的若干分之一,实际上隐含着若干个旧梯度的更新效果就可以等同于一个新梯度的假设。该假设同样也是没有得到证明,而只是启发式地确立的。

因为这些问题的存在,导致了这些简单的学习率调整方式仅仅只能在工人数量较少,或者每个工人每轮计算的minibatch的大小极小时才能有好的效果。一旦这两个条件无法全部满足,训练产生的网络的准确率就会大幅降低。在实验上对该现象做了详细阐述,并指出(工人数量N*每个工人的batchsize)的值越大,异步更新的效果也就越差。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110254554.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top