[发明专利]一种模型训练系统、模型训练中梯度聚合的方法及装置有效
申请号: | 201910880461.5 | 申请日: | 2019-09-17 |
公开(公告)号: | CN112528108B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 孙贝磊;鲍翀;王开盛;杨康 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴磊 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 系统 梯度 聚合 方法 装置 | ||
本申请公开了一种模型训练系统以及模型训练中梯度聚合的方法,应用于人工智能artificial intelligence,AI)技术领域。该模型训练系统中的至少两个训练节点形成环状传输路径。在梯度聚合中,环上的各训练节点在梯度聚合前只需要确定自身的第一算子的第一梯度输出,就可以执行梯度聚合。不需要向中心节点发送该第一梯度,由该中心节点统一执行聚合。也不需要在聚合前向环状传输路径上作为中心节点的一个训练节点报告第一梯度已就绪,在接收到该中心节点返回的聚合指令后才能开始执行梯度聚合。可以有效的减少各训练节点与中心节点之间交互产生的通信开销。
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,具体涉及一种模型训练系统、模型训练中梯度聚合的方法及装置。
背景技术
随着AI的发展,深度神经网络受到了愈加广泛的研究和应用。目前,深度神经网络已经在图像识别、视频分类、语音识别和语言翻译等领域的应用中获得了成功。而随着应用场景的普及,深度神经网络的模型在不断增大,有些模型的网络层数可以达到数百层,而参数量更是达到了两千万。这种越来越复杂的深度神经网络模型,需要多个训练节点一起才能完成模型训练。
训练深度神经网络最常用的是分布式训练方法,即将深度神经网络模型拷贝到多个训练节点上,每个训练节点独立训练不同的数据。在训练的过程中,各训练节点训练出来的梯度要发送到中心节点上进行聚合,然后中心节点再将的梯度发布到各个训练节点上进行权重更新。
另外还有一种环状的分布式训练系统,在该环状的分布式训练系统中,多个训练节点构成一个逻辑的环。各个训练节点训练出来梯度后向该环上作为中心节点的一个训练节点报告梯度就绪状态,在该中心节点确定各个训练节点的梯度都就绪后,通知各个训练节点开始执行梯度聚合,然后根据聚合后的梯度进行权重更新。
由上述方案可知,在模型训练的梯度聚合过程中,都需要各个训练节点与中心节点通信。由于深度神经网络愈加复杂,参数量急剧增加,在分布式训练过程中,由于梯度聚合所产生的通信开销已经成为模型训练的一个瓶颈,亟需解决。
发明内容
本申请实施例提供一种模型训练系统以及模型训练中梯度聚合的方法,可以减小梯度聚合过程中的通信开销。本申请实施例还提供了相应的装置。
本申请第一方面提供一种模型训练中梯度聚合的方法,该方法应用于模型训练系统中的第一训练节点,该第一训练节点为所述模型训练系统中的任一个训练节点,所述模型训练系统包括至少两个训练节点,所述至少两个训练节点形成环状传输路径,第二训练节点为所述环状传输路径上位于所述第一训练节点上游的训练节点,每个训练节点上都包括一份相同的计算图,所述每个训练节点根据所述训练节点上的计算图处理训练数据,所述计算图用于定义多个算子的计算逻辑以及所述多个算子之间数据的输入关系和输出关系,该方法包括:将第一训练数据输入第一计算图,所述第一计算图包括第一算子,所述第一训练数据用于训练出所述第一算子的第一梯度;接收所述第二训练节点发送的第二计算图中第二算子的聚合梯度,所述第二计算图包括与所述第一算子对应的所述第二算子,响应于接收到所述第二训练节点发送的所述聚合梯度和所述第一训练节点训练出的所述第一算子的第一梯度,聚合所述第一梯度和所述第二算子的聚合梯度,以得到所述第一算子的聚合梯度。
上述第一方面中,响应于第二训练节点聚合得到的第二算子的聚合梯度,第二训练节点将聚合梯度发送给第一训练节点,可以理解为:当第二训练节点聚合得到第二算子的聚合梯度时,第二训练节点可以将第二算子的聚合梯度发送给第一训练节点;还可以理解为:一旦第二训练节点聚合得到第二算子的聚合梯度,第二训练节点就将聚合梯度发送给第一训练节点。换句话说,第二训练节点聚合得到第二算子的聚合梯度这一条件可以不是执行第二训练节点可以将第二算子的聚合梯度发送给第一训练节点这一步骤的充分条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910880461.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网关登录方法及装置
- 下一篇:显示面板及其制造方法和电子设备