[发明专利]分布式机器学习训练方法、装置、电子设备及存储介质有效
申请号: | 202011010636.6 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112333234B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 李丹;王帅 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 机器 学习 训练 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供一种分布式机器学习训练方法、装置、电子设备及存储介质,其中方法包括:确定待训练的机器学习模型,以及发往每一计算节点的数据的通信优先级,所述发往每一计算节点的数据的通信优先级是基于所述机器学习模型的模型结构和/或每一计算节点运行所述机器学习模型中对应训练任务的处理速度确定的;基于所述发往每一计算节点的数据的通信优先级,对所述机器学习模型在训练过程中产生的数据流进行节点传输,以供每一计算节点基于接收到的数据流训练所述机器学习模型。本发明实施例提供的方法、装置、电子设备及存储介质,提高了机器学习模型训练的计算速度,提高了分布式系统中计算资源的利用率。
技术领域
本发明涉及计算机技术领域,具体涉及一种分布式机器学习训练方法、装置、电子设备及存储介质。
背景技术
当前,以分布式机器学习训练任务为代表的迭代同步应用在数据中心中非常流行。在迭代同步应用中,分布式系统中的多个计算节点以迭代方式执行计算任务,并在每次迭代中对各自的计算结果进行全局同步,只有当全局同步结束后,这些计算节点才能开始下一轮迭代计算。
然而,随着应用复杂度的增加,例如机器学习模型的参数量高达数亿时,分布式系统计算速度慢,计算资源利用率低。
从机器学习模型的训练角度看,机器学习的训练过程是对模型迭代优化,最终使得模型收敛的过程。在每次迭代训练中,使用训练数据进行前向传播计算得到模型在当前次迭代训练中的损失(loss),然后使用该损失进行反向传播计算得到模型的梯度。在下一次迭代训练时,使用被该梯度更新后的模型参数进行计算。机器学习模型通常具有层次化的特点,这就导致下一次迭代训练中的前向传播计算需要的参数顺序和上一次迭代训练中的反向传播计算得到的模型更新顺序是相反的,即下一次迭代训练中前向传播计算最需要的第一层参数在上一次迭代训练的反向传播计算中的最后才会被更新,由此推迟了下一次迭代计算开始的时间,浪费了计算资源。
从分布式系统的计算过程看,分布式机器学习训练一般采用批量同步并行(BulkSynchronous Parallel,BSP)的方式,在每次迭代中,所有计算节点之间都要进行参数同步。这就导致处理速度慢的计算节点成为拖慢整体训练速度的瓶颈,浪费了处理速度快的计算节点的计算资源。
发明内容
本发明实施例提供一种分布式机器学习训练方法、装置、电子设备及存储介质,用以解决现有技术中分布式系统计算速度慢,计算资源利用率低的问题。
第一方面,本发明实施例提供一种分布式机器学习训练方法,包括:
确定待训练的机器学习模型,以及发往每一计算节点的数据的通信优先级,所述发往每一计算节点的数据的通信优先级是基于所述机器学习模型的模型结构和/或每一计算节点运行所述机器学习模型中对应训练任务的处理速度确定的;
基于所述发往每一计算节点的数据的通信优先级,对所述机器学习模型在训练过程中产生的数据流进行节点传输,以供每一计算节点基于接收到的数据流训练所述机器学习模型。
可选地,所述发往每一计算节点的数据的通信优先级的确定方法包括:
基于所述机器学习模型的模型结构,确定所述机器学习模型的阶段优先级;
和/或,基于每一计算节点运行所述机器学习模型中对应训练任务的处理速度,确定所述每一计算节点的节点优先级;
基于所述机器学习模型的阶段优先级和/或所述每一计算节点的节点优先级,确定所述发往每一计算节点的数据的通信优先级。
可选地,所述基于所述机器学习模型的模型结构,确定所述机器学习模型的阶段优先级,具体包括:
基于所述机器学习模型的模型结构,确定所述机器学习模型在单次迭代训练过程中每个计算阶段的模型参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011010636.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煎蛋机器人制备系统
- 下一篇:一种生物有机肥