[发明专利]分布式训练路由方法、系统、储存介质及计算机设备有效
申请号: | 202110082811.0 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112702267B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 武继刚;陈招红;龙鑫;陈龙;孙为军 | 申请(专利权)人: | 广东工业大学 |
主分类号: | H04L45/12 | 分类号: | H04L45/12;H04L45/48 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 训练 路由 方法 系统 储存 介质 计算机 设备 | ||
本发明针对基于数据融合的分布式机器学习训练中的通信瓶颈,提出了一种分布式训练路由方法、系统、储存介质及计算机设备,其通过在构建梯度更新上传多播树时,根据不同节点发送梯度更新数据的时延差异,将工作节点以最小的跳数加入梯度更新上传多播树中,从而能够最小化对网络资源的占用;同时,本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性,把梯度更新数据路由到同一节点进行数据融合,减小网络中传输的数据量,能显著缓解分布式机器训练过程的通信负载,从而加快分布式机器训练进程。
技术领域
本发明涉及网络路由技术领域,具体涉及分布式训练过程中的通信技术,更具体地,涉及一种分布式训练路由方法、系统、储存介质及计算机设备。
背景技术
分布式训练是当下主流的机器学习训练模式。分布式训练完成一次迭代过程包括以下步骤:工作节点从参数服务器节点获取最新模型参数,然后从本地训练数据中取出一批(即batch,表示一个完整实体的用于训练的输入数据矩阵称为一组,一批可能是一组或者多组)的数据进行梯度更新计算(梯度即用于更新参数矩阵的差值);将梯度更新数据发送至参数服务器;参数服务器利用参数更新数据计算更新模型参数。由于分布式机器学习训练需要进行全局模型参数获取和更新,其中工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器,而大规模的参数传输需要占用大量的带宽资源,所以分布式机器学习训练中的通信瓶颈是一个亟待解决的技术问题。
目前已经存在许多减小分布式训练通信开销的方法,如通过增加批数据量的大小来减少通信次数、梯度压缩等,这些方法都可以有效减小通信开销,但这些方法经常导致测试精度的严重损失,并且需要复杂的超参数调节。考虑到机器学习中梯度更新数据的可融合性,因此通过数据融合技术更进一步减小分布式机器学习训练的网络负载。如图1所示,数据融合技术可以将传输到同一节点的梯度更新数据融合成为一个数据包,从而减小网络负载。然而,现有的基于数据融合的工作大多假设数据包产生是连续的。分布式训练中,工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器。由于工作节点是异构的,工作节点的计算能力存在差异,导致计算完成时间也不一致,在数据融合时需要等待计算较慢的节点将梯度更新发送过来。传统的数据融合算法没有考虑工作节点计算所带来的延迟,无法在分布式训练场景中发挥其优势。此外,传统的数据融合算法没有考虑网络节点的缓存限制。在分布式训练中,梯度更新的数据量通常较大,如果融合的数据过多,可能会超出缓存的存储的容量限制。
公开日为2020.04.17,公开号为:CN111027708A的中国发明专利:一种面向分布式机器学习的参数通信优化方法,试图通过采用动态延迟同步策略来解决集群不同计算节点计算性能不同导致性能浪费的问题。但是该方案并未解决前述的技术问题。
发明内容
针对现有技术的局限,本发明提出一种分布式训练路由方法、系统、储存介质及计算机设备,本发明采用的技术方案是:
一种分布式训练路由方法,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,包括以下步骤:
S01,获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
S02,根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
S03,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
S04,构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082811.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种换药用便携式消毒箱
- 下一篇:一种具有双工质的高效超临界二氧化碳锅炉