[发明专利]具有压缩和延迟补偿的分布式随机梯度下降方法有效

申请号：	202110904974.2	申请日：	2021-08-07
公开（公告）号：	CN113627519B	公开（公告）日：	2022-09-09
发明（设计）人：	董德尊;于恩达;汪杨海;廖湘科;肖立权;徐叶茂;欧阳硕;杨维玲;王笑雨	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	北京丰浩知识产权代理事务所(普通合伙) 11781	代理人：	董超
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有压缩延迟补偿分布式随机梯度下降方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种具有压缩和延迟补偿的分布式随机梯度下降方法，其利用参数服务器和计算节点来实现，计算节点负责进行梯度以及本地权重的计算，而参数服务器则用于接收并聚合来自所有的计算节点的梯度然后进行梯度更新，参数服务器与计算节点之间的数据交互采用了PS架构的一对多模式，本方法首先进行预热训练，利用全局梯度值对全局权重进行更新，预热训练结束后，进行过渡训练，对全局权重进行备份；过渡训练结束后，进行正式训练，得到下一个时刻的本地梯度和本地权重，再进行补偿训练。本方法采用了独特的本地更新机制来掩盖量化的额外计算开销，适用于所有的有损压缩方法，具有适用范围广的优点。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种具有压缩和延迟补偿的分布式随机梯度下降方法。

背景技术

目前，分布式训练已经成为深度学习模型训练的有效方法。庞大的训练数据集被划分到多个节点来执行训练任务。因此，这些节点必须在更新全局参数之前相互共享其计算参数，共享过程的通信成本限制了分布式系统的可扩展性，严重降低了分布式训练的效率。例如，在通过1Gbps以太网连接的16节点Nvidia P102-100 GPU集群上训练ResNet-50时，通信时间是计算时间的九倍以上。当计算节点数量增加时，通信成本趋于恶化。为了解决分布式训练中通信问题，研究者们提出了许多加速分布式训练的方法，该类方法可以分为系统级方法和算法级方法。

在系统层面，流水线方法基于神经网络的分层结构优化训练，使得每一次反向传播(BP)都能与下一层的计算过程重叠通信。继流水线方法后，通信优先级调度机制被提出，以实现计算和通信开销之间更积极的重叠。最近已有研究工作提出通过并行化计算和通信操作来提高分布式训练性能。Post-local SGD、K-AVG和Periodic Averaging方法使每个计算节点在通信之前执行本地更新，通过平均同步来进化本地模型。

在算法层面，梯度压缩技术被提出来以减少通信流量，它可分为梯度稀疏化方法和梯度量化方法。梯度量化方法将高精度梯度转换为低精度梯度进行通信。1位量化方法通过将32位梯度编码为1位，来减少通信流量。QSGD方法允许用户根据网络带宽选择不同的量化程度。WAGE方法和8位训练方法不仅量化梯度，还量化权重。早期的稀疏化方法通过单个阈值判断是否发送梯度。然后，DGC通过在每次迭代中仅交换前0.1％梯度并累积其他梯度，直到其变得足够大，再进一步加速大规模分布式训练。虽然这些通信算法可以缓解通信压力，但它们在数据编码和梯度选择上引入了额外的计算开销。更糟糕的是，当额外的计算开销和梯度计算时间远高于通信成本时，压缩方法的性能提升并不明显。

在结合系统级方法和算法级方法的优点方面，一些研究做出了努力，但效果仍不理想。LAGS-SGD方法将DGC与流水线方法集成，但由于存在多层通信的启动成本和额外的压缩成本，因此并没有带来很大的速度优势。Canary方法将8位量化与梯度分区相结合，但无法解决精度下降的问题。OMGS-SGD将DGC与最优合并机制相结合，而在训练VGG-16等密集通信模型时，它并不比DGC方法快得多。

对于分布式训练中通信问题，需要一种适当的方法来消除或掩盖压缩的额外成本，同时需要解决压缩导致的精度下降问题，最后，所选择的机制优化方法必须带来足够的训练效率收益。

发明内容

针对分布式训练中通信优化中面临的消除或掩盖压缩的额外成本和压缩导致的精度下降问题，本发明公开了一种具有压缩和延迟补偿的分布式随机梯度下降方法，其利用参数服务器和计算节点来实现，计算节点负责进行梯度以及本地权重的计算，而参数服务器则用于接收并聚合来自所有的计算节点的梯度然后进行梯度更新，参数服务器与计算节点之间的数据交互采用了PS架构的一对多模式，本方法的具体步骤包括：

首先进行预热训练，其包括步骤S1、步骤S2和步骤S3；

S1，从参数服务器端取回t-1时刻全局权重W_i-1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110904974.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种CD177作为检测急性心肌梗死的生物标志物的用途
下一篇：一种采集旋转轴能量的压电-电磁复合式发电装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]具有压缩和延迟补偿的分布式随机梯度下降方法有效

专利文献下载