[发明专利]用于实施基于网络接口的全归约操作的系统和方法在审
| 申请号: | 202111274240.7 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN115686819A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | K·D·安德伍德;R·L·阿尔弗森;D·罗威斯;N·L·威曼 | 申请(专利权)人: | 慧与发展有限责任合伙企业 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 初媛媛;吴丽丽 |
| 地址: | 美国德*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 实施 基于 网络 接口 全归约 操作 系统 方法 | ||
本公开涉及用于实施基于网络接口的全归约操作的系统和方法。提供一种装置,包括:网络接口,通过网络传输和接收数据包;存储器,包括一个或多个缓冲区;算术逻辑单元,执行算术运算以组织和组合数据包;和用于进行以下操作的电路:经由网络接口接收来自网络的数据包;经由算术逻辑单元,以网络速率将接收的数据包聚合到一个或多个缓冲区中;和经由网络接口将聚合的数据包传输到网络中的一个或多个计算节点,以优化在组合接收的数据包和传输聚合的数据包时产生的时延,并因此加速批量数据全归约操作。一个实施例提供用于执行全归约操作的系统和方法。在操作期间,系统通过对网络操作进行定步来执行全归约操作以增强全归约操作的性能。
技术领域
本公开总体上涉及分布式计算系统中的数据处理领域。更具体地,本公开涉及一种用于实施基于网络接口的全归约(allreduce)操作的系统和方法。
背景技术
如人工智能(AI)、特别是深度学习(DL)训练应用等新兴工作负载正在快速发展,并且计算密集型工作负载涉及并行计算,例如,图形处理单元(GPU)加速计算。DL训练的数据并行实施方式涉及批量数据集体操作。集体操作(collective operation)是并行计算中的基本原语。它们提供了协调分布式计算系统中的众多系统上的进程所必需的同步和全局数据交换。在集体操作中,每个进程都参与其中并为结果做出贡献。进一步地,当这些集体操作在越来越多的GPU上并行化时,执行基于主机的集体操作所花费的时间量可能是决定整体性能的关键因素。换句话说,集体操作的低效率会降低分布式计算的价值。
一些现有系统将集体操作卸载(offload)到网络硬件(例如,网络交换机),以提高DL训练的性能。然而,集体操作的这种基于交换机的实施方式会在软件和/或硬件方面大大增加交换机的复杂性。因此,在设计高效的集体操作和相关联的网络硬件方面存在挑战,所述集体操作和网络硬件可以有效地扩展以匹配并行计算环境中GPU数量和计算节点数量的快速增长。
附图说明
图1图示了根据一个实施例的用于分布式计算系统的示例性系统架构。
图2图示了典型全归约算法的示例。
图3图示了根据一个实施例的示例性全归约操作。
图4图示了根据一个实施例的示例性全归约操作,以及数据片段在网络中的计算节点之间的分段和分布。
图5A呈现了图示根据一个实施例的用于实施基于网络接口的全归约操作的过程的流程图。
图5B呈现了图示根据一个实施例的与图5A相对应的全归约操作的流程图。
图6图示了根据一个实施例的有助于实施基于网络接口的全归约操作的示例性计算机系统。
在这些附图中,相同的附图标记指代相同的附图元素。
具体实施方式
以下描述被呈现以使得本领域的任何技术人员能够制造和使用实施例,并且在特定应用及其要求的上下文中被提供。对所公开实施例的各种修改对于本领域技术人员来说将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文定义的一般原理可以应用于其他实施例和应用。因此,本公开的范围不限于所示实施例,而旨在符合与本文公开的原理和特征一致的最大范围。
本文描述的实施例解决了设计高效的集体操作和用于加速集体操作的网络接口硬件的技术问题,使得它们可以随着并行计算环境中计算机节点和/或GPU数量的增加而更好地扩展;并且可以优化DL训练工作负载的基本通信操作。
全归约是一种集体操作,其中每个计算节点都贡献部分结果,并且全归约可以组合这些结果并将它们分发给所有参与进程(participating process)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧与发展有限责任合伙企业,未经慧与发展有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111274240.7/2.html,转载请声明来源钻瓜专利网。





