[发明专利]一种面向异构集群加速分布式训练的方法及系统在审

专利信息
申请号: 202210695496.3 申请日: 2022-06-20
公开(公告)号: CN115081619A 公开(公告)日: 2022-09-20
发明(设计)人: 杜海舟;黄晟 申请(专利权)人: 上海电力大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/063;G06F9/50
代理公司: 南京禹为知识产权代理事务所(特殊普通合伙) 32272 代理人: 刘子奇
地址: 201306 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 集群 加速 分布式 训练 方法 系统
【说明书】:

发明公开了一种面向异构集群加速分布式训练的方法及系统,包括:收集所有计算节点的性能数据,并对所需训练数据进行动态分配;对局部iteration更新次数进行分配,使得所有计算节点在近乎相同的时间点完成任务;采用深度强化学习策略缩减所述训练数据的训练时间,并将梯度数据上传至参数服务器;循环迭代,直至训练epoch达到设定值。通过数据动态分配模块、负载均衡模块以及屏障控制模块的协同工作减少每一轮用于等待掉队节点的时间开销,提高集群计算资源利用率,对整个训练过程实现加速并保证不降低最终的模型精度。

技术领域

本发明涉及分布式计算领域和深度学习领域,尤其涉及一种面向异构集群加速分布式训练的方法及系统。

背景技术

近年来深度学习已经广泛应用于许多现实世界的问题,从计算机视觉到自然语言处理。然而,深度神经网络的训练非常耗时,特别是在大型模型和大数据上,单台机器在大型数据集上训练大型模型已经变得困难。在大数据浪潮的推动下,从2005年至今训练数据增长了至少六十倍,例如,ImageNet数据集包含1400万张图像,涵盖2万多个类别。于此同时深度神经网络模型的复杂度也随之呈现爆炸式的增长,例如Open-AI最新提出的语言模型GPT-3含有1300亿参数,训练一个GPT-3模型需要“355个GPU年”(一块GPU运行355年的运算量),光是训练费用就高达460万美元,在一颗NVIDIA M40 GPU上用ResNet-50训练ImageNet需要14天,如果用一个串行程序在单核CPU上训练可能需要几十年才能完成,故而通常采用分布式集群进行训练。集群中有两种不同的角色,一是参数服务器,其作用主要为收集计算节点的梯度信息执行聚合操作,二是计算节点,其作用是用于训练神经网络,把计算得到的梯度信息上传到参数服务器上。一般一轮迭代的流程是:1)计算节点从参数服务器上下载最新的参数至本地;2)计算节点使用最新的参数计算梯度数据;3)计算节点将梯度数据上传到参数服务器,参数服务器等待所有计算节点上传完毕后聚合梯度数据并更新模型。

然而,现实世界中的大多数集群都包含不同时代和类型的GPU(图形处理器)和CPU(中央处理器),具有不同的计算能力,在异构环境中,速度较慢GPU的计算节点很容易成为掉队者,导致在每一轮迭代中都需要花费很长的时间等待这些掉队者,从而导致计算资源利用率低下,训练加速效果不尽人意,训练效率远低于理想状态下的同构训练环境。针对此问题,本发明提出了一种基于负载均衡的自适应训练方法,提高计算资源利用率并加速训练。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题,提出了本发明。

因此,本发明解决的技术问题是:在异构环境中,速度较慢GPU的计算节点很容易成为掉队者,导致在每一轮迭代中都需要花费很长的时间等待这些掉队者,从而导致计算资源利用率低下,训练加速效果不理想的问题。

为解决上述技术问题,本发明提供如下技术方案:收集所有计算节点的性能数据,并对所需训练数据进行动态分配;对局部iteration更新次数进行分配,使得所有计算节点在近乎相同的时间点完成任务;采用深度强化学习策略缩减所述训练数据的训练时间,并将梯度数据上传至参数服务器;循环迭代,直至训练epoch达到设定值。

作为本发明所述的面向异构集群加速分布式训练的方法的一种优选方案,其中:所述对所需训练数据进行动态分配包括,

构建异构分布式GPU服务器,并采用参数服务器架构进行网络通信;

采用每秒可计算样本数量对所述所有计算节点的性能数据进行量化指标;

根据性能按照比例对所述性能数据进行数据切分。

作为本发明所述的面向异构集群加速分布式训练的方法的一种优选方案,其中:包括,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电力大学,未经上海电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210695496.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top