[发明专利]面向分布式深度学习算子并行训练的通信优化方法与系统有效
| 申请号: | 202310039997.0 | 申请日: | 2023-01-13 |
| 公开(公告)号: | CN115996173B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 于笑颜;李诚;周泉;王海权;徐伟;许胤龙 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | H04L41/0823 | 分类号: | H04L41/0823;H04L41/0894;H04L41/14;G06F18/214;G06N3/04;G06N3/08 |
| 代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 分布式 深度 学习 算子 并行 训练 通信 优化 方法 系统 | ||
本发明公开了一种面向分布式深度学习算子并行训练的通信优化方法与系统,对通信方式进行了优化,方法与系统一一对应,主要包括:剖析模型,策略评估和生成最佳优化策略,算子拆分和隐藏通信,模型训练与算子拆分的集成四个部分。与传统方案相比,本发明利用开销模型评估出最优的拆分策略,将通信前后的计算算子拆分成细粒度的子计算算子,使得计算算子和通信算子并行,使得通信开销能最大化地隐藏到计算中,最大化利用网络和计算资源。
技术领域
本发明涉及分布式深度学习并行训练技术领域,尤其涉及一种面向分布式深度学习算子并行训练的通信优化方法与系统。
背景技术
2021年美国斯坦福大学,微软公司和英伟达公司的深度学习团队在SC(International Conference for High Performance Computing, Networking, Storageand Analysis,高性能计算、网络、存储和分析国际会议)会议上发表用算子并行的方法训练大型语言模型的系统Megatron,并且在开源社区GitHub上开源。为了训练单张GPU卡的内存无法容纳的大模型,以及加快模型训练的速度,该方法把一个计算算子拆分到多块GPU卡上并行执行,接着串行地执行一个通信算子,同步各个GPU的计算结果,以保证和原来单计算算子的计算逻辑一致性。但是该方法中,在一台服务器(包括四张NVIDIA1080Ti GPU)的环境下做算子并行训练,通信开销是在影响训练速度的关键路径上。本质原因在于以下三点:1)通信算子必须等待各个卡的计算完成后,才能开始执行,并且集合通信执行完成后才能继续开始后续的计算,这导致引入的通信开销无法被隐藏;2)模型训练无法充分利用系统中网络和计算资源,计算算子执行时,网络处于空闲状态;3)为了减小引入的通信开销,Megatron系统优化了算子切分策略,但是在一个变压器(Transformer)中仍然需要两次集合通信操作,且每次的通信量和模型的大小成正比。在训练420M-BERT模型时,Transformer层每训练一个数据需要的通信量为1GB,通信时间约占端到端训练时间的30%。
发明内容
本发明的目的是提供一种面向分布式深度学习算子并行训练的通信优化方法与系统,对通信的优化方法,以避免现有技术的上述缺点,在不影响训练精度的前提下,将通信开销隐藏到计算中,提升系统中网络和计算资源的利用率。
本发明的目的是通过以下技术方案实现的:
一种面向分布式深度学习算子并行训练的通信优化方法,包括:
获取模型训练框架的初始计算流图,并确定模型算子并行训练中各计算算子的计算量与计算完成后的对应通信算子的通信量;
预先构造不同计算量的计算算子,以及不同通信量的通信算子,并分别执行,获得计算量与计算时间的函数关系式,以及通信量与通信时间的函数关系式,结合计算量与计算时间的函数关系式,以及通信量与通信时间的函数关系式对各计算算子的计算量与计算完成后的对应通信算子的通信量进行不同拆分粒度的切分,选出最优拆分粒度;
对于模型算子并行训练中每一计算算子及其计算量,以及每一通信算子及其通信量,均按照所述最优拆分粒度进行拆分,拆分结果为与所述最优拆分粒度相同数目的子计算算子、每一子计算算子对应的计算量、与所述最优拆分粒度相同数目的子通信算子,以及每一通信算子对应的通信量,其中子计算算子与子通信算子并行执行;
按照拆分结果对所述初始计算流图进行修改,由所述模型训练框架按照修改后的计算流图执行模型训练。
一种面向分布式深度学习算子并行训练的通信优化系统,包括:
剖析器,用于获取模型训练框架的初始计算流图,并确定模型算子并行训练中各计算算子的计算量与计算完成后的对应通信算子的通信量,计算算子与通信算子一一对应;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310039997.0/2.html,转载请声明来源钻瓜专利网。





