[发明专利]初始化参数的集群同步方法、装置、设备、介质及系统在审
| 申请号: | 202110989326.1 | 申请日: | 2021-08-26 |
| 公开(公告)号: | CN113709240A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 吴长平;刘邦岚;王嫣然;丁圣阁 | 申请(专利权)人: | 上海燧原科技有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06K9/62 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 蔡舒野 |
| 地址: | 201306 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 初始化 参数 集群 同步 方法 装置 设备 介质 系统 | ||
本发明实施例公开了一种初始化参数的集群同步方法、装置、设备、介质及系统。该方法通过主服务器上的集中主节点接收与待训练的目标神经网络匹配的初始化训练参数;根据初始化训练参数,构建与主服务器中的各第一从节点分别匹配的服务器内数据包,并将各服务器内数据包发送至匹配的各第一从节点;根据初始化训练参数,构建与训练集群中的各从服务器分别匹配的服务器间数据包,并将各服务器间数据包分别发送至各从服务器中的分层主节点;其中,各分层主节点用于将接收到的服务器间数据包同步至各从服务器中的各第二从节点。实现扩展神经网络训练集群规模的效果。
技术领域
本发明实施例涉及神经网络的分布式训练技术,尤其涉及一种初始化参数的集群同步方法、装置、设备、介质及系统。
背景技术
神经网络训练初始化时需要保证集群内每张神经网络训练卡上的神经网络权重参数与偏值量参数是同样的值。图1为现有技术中的一种传统初始化参数的集群同步方法,如图1所示,分布式集群由服务器0、服务器1、…、服务器N+1构成,每个服务器上均设置有多个DTU(Deep Thinking Unit,深度思考单元)。在分布式集群针对某一个神经网络进行分布式训练之前,首先需要将神经网络训练过程中所需使用的各项初始化参数(权重参数与偏值量参数)统一发送至分布式集群中的每个DTU中。
现有的初始化参数的集群同步方式为通过一个根训练卡节点(DTU0)与集群内所有的其他训练卡节点(DTU1)进行协商,以广播的形式将根节点训练卡上的各项权重参数与偏值量参数复制到集群内其他所有的训练卡上。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:这种以根节点为中心的协商机制,通常会使根节点训练卡的负载和集群网络的带宽占用随着训练卡节点数的增加而升高,不利于训练卡集群规模的扩展。
发明内容
本发明实施例提供了一种初始化参数的集群同步方法、装置、设备、介质及系统,以提供一种基于分层协商的初始化参数的集群同步方式,有效降低根节点训练卡的负载和集群网络的带宽占用。
第一方面,本发明实施例提供了一种初始化参数的集群同步方法,由设置在训练集群的主服务器上的集中主节点执行,其中,该方法包括:
接收与待训练的目标神经网络匹配的初始化训练参数;
根据初始化训练参数,构建与主服务器中的各第一从节点分别匹配的服务器内数据包,并将各服务器内数据包发送至匹配的各第一从节点;
根据初始化训练参数,构建与训练集群中的各从服务器分别匹配的服务器间数据包,并将各服务器间数据包分别发送至各从服务器中的分层主节点;
其中,各分层主节点用于将接收到的服务器间数据包同步至各从服务器中的各第二从节点。
第二方面,本发明实施例还提供了一种初始化参数的集群同步方法,由设置在训练集群的从服务器上的分层主节点执行,其中,该方法包括:
接收训练集群的主服务器中的集中主节点发送的服务器间数据包,其中,所述服务器间数据包为所述集中主节点根据与待训练的目标神经网络匹配的初始化训练参数,以及所述分层主节点的节点识别标识构建得到的;
将所述服务器间数据包发送至所在从服务器中的各第二从节点,以实现对初始化训练参数的服务器内同步;
其中,所述第二从节点为所述从服务器中包括的,用于与分层主节点共同训练目标神经网络所使用的其他节点。
第三方面,本发明实施例还提供了一种初始化参数的集群同步装置,由设置在训练集群的主服务器上的集中主节点执行,其中,该装置包括:
训练参数接收模块,用于接收与待训练的目标神经网络匹配的初始化训练参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海燧原科技有限公司,未经上海燧原科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110989326.1/2.html,转载请声明来源钻瓜专利网。





