[发明专利]一种AI分布式训练系统的参数更新方法、装置、设备有效

申请号：	202010820131.X	申请日：	2020-08-14
公开（公告）号：	CN112001501B	公开（公告）日：	2022-12-23
发明（设计）人：	郭振华;范宝余;曹芳;赵雅倩;李仁刚	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;G06F16/23;G06F16/27;H04L67/10
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘志红
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 ai 分布式训练系统参数更新方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种AI分布式训练系统的参数更新方法，包括：在分布式异构系统的目标worker节点上启动AI算法模型的训练任务，控制该节点加载模型参数，并为其随机选择第k次迭代训练的样本数据，对模型参数进行梯度更新，并随机创建目标节点集合，利用该集合对邻接矩阵进行非零值更新，并利用更新邻接矩阵对该集合中各个节点上的模型参数进行更新；当完成第k次迭代训练时，若AI算法模型收敛，则重复对该节点进行迭代训练，直至该节点完成M次迭代训练，则判定分布式异构系统完成AI加速任务。利用该方法可以在支持混合异构分布式计算环境的同时，也能够降低分布式计算集群中各个worker节点在进行参数同步时对于通信带宽的要求。

技术领域

本发明涉及计算机技术领域，特别涉及一种AI分布式训练系统的参数更新方法、装置、设备及介质。

背景技术

在实际应用中，经常会使用分布式集群来对AI(Artificial Intelligence，人工智能)算法模型的训练任务进行加速，当采用分布式集群中的多个worker节点来对AI算法模型进行数据并行训练时，首先会在每个worker节点上部署相同的AI算法模型，并对已经标注好的训练数据进行分批次迭代处理，其中，在每次迭代过程中，均需要将一个批次的训练数据按照worker节点的数量分成N个微批次，然后，再将这N个微批次的训练数据分发到不同的worker节点上进行模型训练，最后，当所有的worker节点完成各个微批次训练数据的训练后，还会将每个worker节点上的模型参数进行同步更新。

目前，AI分布式训练系统的参数同步更新方法主要有Parameter-Server算法、All-Reduce算法和Ring-all-reduce算法，由于这三种参数同步方法均是面向同构的分布式计算环境，所以，就会要求分布式计算系统中所有的worker节点均设置完全相同的计算设备，并同时要求所有的worker节点均采用相同带宽的通信链路，这样才能提升整个分布式计算系统的线性加速比。但是，在实际应用中，会不断地在AI分布式训练系统的worker节点中添加各种新型的计算设备，在此情况下，如果是采用以上三种算法来对AI分布式训练系统中的参数进行更新时，就会导致AI分布式训练系统的整体性能受限于分布式计算环境中计算性能最慢的worker节点或者是传输最慢的通信链路。目前，针对这一技术问题，还没有较为有效的解决办法。

由此可见，如何使得AI分布式训练系统在支持混合异构分布式计算环境的同时，也能够降低分布式计算集群中各个worker节点在进行参数同步时对于通信带宽的要求，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种AI分布式训练系统的参数更新方法、装置、设备及介质，以使得AI分布式训练系统在支持混合异构分布式计算环境的同时，也能够降低分布式计算集群中各个worker节点在进行参数同步时对于通信带宽的要求。其具体方案如下：

一种AI分布式训练系统的参数更新方法，包括：

当分布式异构系统需要完成AI加速任务时，则在所述分布式异构系统的目标worker节点上启动AI算法模型的训练任务，并对所述目标worker节点的模型参数和邻接矩阵进行初始化；其中，所述分布式异构系统的所有worker节点上均部署有AI算法模型；

控制所述目标worker节点加载预先所设置好的目标模型参数，并为所述目标worker节点随机选择第k次迭代训练的样本数据；其中，k≥1；

基于所述样本数据对所述目标模型参数进行梯度更新，并对所述目标worker节点随机创建目标节点集合；

利用所述目标节点集合对所述邻接矩阵进行非零值更新，得到更新邻接矩阵，并利用所述更新邻接矩阵对所述目标节点集合中各个worker节点上的模型参数进行更新；

当所述目标worker节点完成所述第k次迭代训练时，则判断所述目标worker节点上的AI算法模型是否收敛；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司，未经苏州浪潮智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010820131.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种服务器故障调试的方法、系统及远端服务器
下一篇：一种操作系统安装方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种AI分布式训练系统的参数更新方法、装置、设备有效

专利文献下载