[发明专利]一种用于分布式训练计算阶段的自动优化方法在审

申请号：	202210553734.7	申请日：	2022-05-20
公开（公告）号：	CN114911621A	公开（公告）日：	2022-08-16
发明（设计）人：	林海阳;严明玉;邹沫;王铎;李文明;叶笑春;唐志敏;范东睿	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F9/50	分类号：	G06F9/50;G06N3/08;H04L67/1001
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于分布式训练计算阶段自动优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用于分布式训练计算阶段的自动优化方法，所述方法包括在分布式训练的每个回合执行如下步骤：S1、以预设的最小单位负载为粒度，计算当前回合中参与分布式训练的所有节点的计算性能；S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间，分别计算每个节点在限制时间内能够完成计算的最大负载数，以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略；S3、以步骤S2中负载分配策略，分配下一回合每个计算节点的负载。其中，节点的计算性能是该节点完成预设最小单位负载计算的时间。

技术领域

本发明涉及人工智能领域，具体来说，涉及应用于深度神经网络的分布式训练系统领域，更具体地说，涉及深度神经网络分布式训练过程中的计算阶段，即一种用于分布式训练计算阶段的自动优化方法。

背景技术

近年来，DNN(Deep Neural Network深度神经网络)发展迅速，其在计算机视觉、自然语言处理等方面不断取得进展，但是问题也随之产生：一方面，随着ResNet的残差连接等解决梯度消失问题的理论方法的提出，DNN的深度不断增加。为了追求更高的精度，会尝试用更深的层次结构以及更多的参数，这就导致了模型的大小不断增加；另一方面，由于网络信息时代数据的爆炸性增长，可用于训练的数据迅速增加，若能让DNN用更多的输入数据进行训练,更有希望能取得更好的精度。所以，DNN模型大小以及输入数据规模不断变大，导致对算力的需求也更加急迫。

为了降低DNN训练的时间开销，分布式训练方案被提出。分布式训练方法使用大量计算节点，从而可以更快速地进行实验与部署DNN。分布式训练更集中于保证其可扩展性，希望每增加一个计算节点，其性能能够对应的线性增加。通过合理划分数据集，让每个节点得到属于自己的部分数据集，从而可以将输入数据和模型都存于内存中，避免了内存与硬盘间频繁搬运数据带来的能耗与时间开销，再加上随着计算部件的倍增，其单位时间所能完成的计算量也是成倍增长，所以近年来分布式训练在大数据训练上取得了非常不错的成绩。目前的分布式训练主要分为同步分布式训练和异步分布式训练。异步分布式训练由于有可能出现不收敛的情况且其到收敛阶段所需的时间也比同步训练的长，故而应用不如同步分布训练广泛。同步分布式训练分成两个阶段：计算阶段与同步阶段。在计算阶段，各节点取一部分输入数据集的数据，在DNN模型上完成前向传播与反向传播，得到DNN反向传播的梯度(gradients)；在同步阶段，统一进行同步操作，得到梯度的和，并更新模型的参数(weights)，然后继续下一轮的计算。目前应用最广泛的同步训练算法为Worker-Agg(Worker-Aggregator)、HD(Halving-Doubling)和Ring。

Worker-Agg存在关键节点Agg，为一对多的通讯模式，所以容易出现堵塞情况，可扩展性不好，Allreduce算法HD与Ring可扩展性好，但是又由于HD与Ring算法的同步阶段为所有节点一起同步完成，由于“木桶短板”效应，单节点的低性能会拖累整体的性能，所以要求各个计算节点在计算性能上要相近，否则意味着浪费了高性能节点的能力。然而在现实生活中，保证各节点计算能力相近是困难的，其主要原因包括：首先，目前市场上的加速卡多种多样，比如GPU/CPU/TPU等，即使是同一个公司产品，也不断在更新换代，不同代GPU性能差距在1.4x-1.8x往上，而且由于硬件更替，常常出现计算平台中有不同代产品共存的情况。其次，就算所用的加速卡一样，现实使用中，基本也不会存在只跑一个线程的情况，往往是多个负载共存，资源的竞争导致其能力波动，这类网络不平衡现象，影响计算阶段，导致整体性能受损。

由此可见，解决网络不平衡现象对计算阶段的影响是提高分布式训练性能的一个关键。

发明内容

因此，为了达到上述目的，本发明提供一种能够解决网络不平衡现象对分布式训练计算阶段的影响的计算阶段优化方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210553734.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于分布式训练计算阶段的自动优化方法在审

专利文献下载