[发明专利]一种用于分布式训练同步阶段的自动优化方法在审

申请号：	202210553741.7	申请日：	2022-05-20
公开（公告）号：	CN114925826A	公开（公告）日：	2022-08-19
发明（设计）人：	林海阳;严明玉;邹沫;王铎;李文明;叶笑春;唐志敏;范东睿	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于分布式训练同步阶段自动优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用于分布式训练同步阶段的自动优化方法，所述方法包括在每个回合执行如下步骤：S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表；S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略，并将自动优化策略对应的节点加入分布式训练。其中，所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表，其中，所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表，所述非激活节点是指当前回合之前未加入分布式训练的节点。

技术领域

本发明涉及人工智能领域，具体来说，涉及应用于深度神经网络的分布式训练系统领域，更具体地说，涉及深度神经网络分布式训练过程中的同步阶段，即一种用于分布式训练同步阶段的自动优化方法。

背景技术

随着科学技术技术的进步，现在信息的收集变得越来越容易。通过挖掘有用的信息，深度神经网络(Deep Neural Network，DNN)可以帮助人们完成日常生活中的各种任务，如图像识别、语言翻译、个人推荐等。然而，数据量的极速增加使其分析变得非常复杂和耗时，例如，微软的COCO数据集的大小达到25GB，包含330K图片，而ImageNet-22K的大小达到1TB，包含超过15M图片，对这些数据集进行分析可能需要几天甚至几周的时间。此外，深度神经网络(DNN)的模型大小也随着任务难度的增加而增加，如ResNet-50(98MB)和VGG-16(525MB)。由于上述两个原因，DNN的训练非常耗时，由此，人们提出了针对深度神经网络的分布式训练方法。分布式训练通过并行化策略为减少DNN的训练时间提供了一种有效的解决方案。

在分布式训练中，有两种模式，分别为模型并行和数据并行。模型并行模式是指一个DNN模型被划分为多个部分，分布式系统中不同的节点分布负责计算各个部分，但由于其划分工作复杂，在通信开销大的系统中效率较低，在实际应用中很少使用。如今，数据并行模式越来越普遍，数据并行模式包括计算阶段和同步阶段。在数据并行中，每个计算节点持有模型的一个副本，并且输入数据集分布到每个节点。其中，数据并行模式又分为同步训练和异步训练。然而，与同步分布式训练相比，异步分布式训练收敛速度较慢，最终精度较低，有时会出现非收敛的情况，由此，同步训练应用越来越广泛。在同步分布式训练中，每个节点完成一个小批量的训练后，系统开始收集梯度，用于均匀更新权值。这样，每个节点的每一轮训练都以相同的权重进行，相当于一个节点进行计算。

目前，同步分布式训练的主要架构有参数服务器架构和All Reduce算法架构。参数服务器架构的结构是一对多的，即一个参数服务器负责多个进程(worker)，这种结构导致了较差的可伸缩性。在利用网络全双工特性的(Ring All Reduce、Halving andDoubling All Reduce)算法中，在同步阶段通过节点内交换梯度完成权值的更新，其可扩展性较好，它的性能随节点数量线性增长。但是，由于同步分布式训练和All Reduce算法的结构特点，资源和负载等带来的网络不平衡现象会给其性能带来严重的影响。同步分布式训练过程可分为计算阶段和同步阶段，而在同步阶段，由于All Reduce算法的结构特点，同步阶段的性能取决于分布式训练系统中网络状态最差的节点：一方面，由于网络连接的拓扑结构导致不同节点间的传输效率本身就有差别；另一方面，在现实场景中，单机上经常存在多个工作负载并存的情况，由于竞争网络资源，会进一步加剧网络不平衡问题，而此问题会导致总体性能受损。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种能够优化分布式训练同步阶段性能的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210553741.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种气相自组装可控制备中空微纳结构的有机发光材料及其应用
下一篇：一株产蛋白酶的菌株及其应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于分布式训练同步阶段的自动优化方法在审

专利文献下载