[发明专利]一种网络重置方法及基于此的加速分布式训练方法和系统在审
申请号: | 202010055765.0 | 申请日: | 2020-01-17 |
公开(公告)号: | CN113138831A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 张翔宇;张曼妮;李杨;孙军欢 | 申请(专利权)人: | 深圳致星科技有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06N20/00;H04L12/06;H04L12/24;H04L29/08 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 重置 方法 基于 加速 分布式 训练 系统 | ||
1.一种分布式训练过程中重置训练数据传输网络的方法,其特征在于,包括:
在分布式训练启动后和各虚拟节点的分布式训练应用执行训练运算前,
构建一个逻辑环,使其包括全部虚拟节点;
确定逻辑环的起始节点、终止节点;
从起始节点起向下游,正向收集各节点的RDMA网络配置:
从起始节点起向下游直到终止节点,其中的各训练进程递次地获取本虚拟节点RDMA网络配置和接收上游相邻节点训练进程发来的上游节点的RDMA网络配置;并一并作为下游相邻节点的上游节点RDMA网络配置,发送给下游相邻节点的训练进程;直至终止节点的训练进程获得训练集群的全局RDMA网络配置;
从终止节点起向上游,反向同步全局RDMA网络配置:
在所述正向收集过程结束后,从终止节点起向上游直到起始节点,其中的各训练进程,逐节点地将传递和同步所述全局RDMA网络配置给上游相邻节点的训练进程;直至起始节点的训练进程获得全局RDMA网络配置;
在所述的正向收集和反向同步过程结束后,各节点的训练进程,分别根据全局RDMA网络配置生成新的包括RDMA网络配置的训练数据传输网络配置,替换训练集群中默认的训练数据传输网络配置。
2.根据权利要求1所述的分布式训练过程中重置训练数据传输网络的方法,其特征在于,
在其中的正向收集全局RDMA网络配置的过程中,若其中的训练进程发现其下游相邻节点无法通信,则跳过该下游相邻节点,向该下游相邻节点的下游相邻节点的训练进程发送上游节点RDMA网络配置;
若仍不通,则继续跳过,直至有下游节点接收其发送的上游RDMA网络配置。
3.根据权利要求1所述的分布式训练过程中重置训练数据传输网络的方法,其特征在于,
在其中的反向同步全局RDMA网络配置的过程中,若其中的训练进程发现其上游相邻节点无法通信,则删除在全局RDMA网络配置中的该上游相邻节点的RDMA网络配置;并跳过该上游相邻节点向该上游相邻节点的上游相邻节点的训练进程同步新的全局RDMA网络配置;以及根据全局RDMA网络配置向已同步全局RDMA网络配置的下游节点同步新的全局RDMA网络配置;
若所述的上游相邻节点的上游相邻节点仍不通,则继续通过删除更新全局RDMA网络配置、跳过无法通信的上游节点和向下游节点同步新的全局RDMA网络配置,直至有上游节点接收其同步的全局RDMA网络配置。
4.根据权利要求1-3中任一所述的分布式训练过程中重置训练数据传输网络的方法,其特征在于,
在根据全局RDMA网络配置重置训练数据传输网络配置前,删除在全局RDMA网络配置中没有RDMA网络配置的节点,根据删除后的全局RDMA网络配置,生成新的全部为RDMA网络配置构成的训练数据传输网络配置。
5.根据权利要求1所述的分布式训练过程中重置训练数据传输网络的方法,其特征在于,
其中的各训练进程在获取、接收RDMA网络配置、更新训练数据传输网络配置后,即时保存。
6.根据权利要求1所述的分布式训练过程中重置训练数据传输网络的方法,其特征在于,
其中的训练数据传输,包括分布式训练过程中AI模型的参数交换。
7.一种基于高效通信网络的加速分布式训练方法,其特征在于,包括:
将分布式训练任务调度到容器云平台;
在训练集群启动分布式训练应用;
在各虚拟节点上的训练应用执行训练前,
以权利要求1-6中任一所述的方法重置所述训练集群的训练数据传输网络配置为RDMA网络;
在训练数据传输网络配置被重置为RDMA网络后,
各训练应用开始执行训练;
并在之后的训练过程中,通过RDMA网络,进行各训练进程间的训练数据的通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010055765.0/1.html,转载请声明来源钻瓜专利网。