[发明专利]一种面向机器学习框架的流量调度方法有效
| 申请号: | 201810569876.6 | 申请日: | 2018-06-05 |
| 公开(公告)号: | CN108768876B | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 江勇;李清;杨光 | 申请(专利权)人: | 清华大学深圳研究生院 |
| 主分类号: | H04L47/10 | 分类号: | H04L47/10;H04L41/14;H04L47/50;H04L47/6275 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 机器 学习 框架 流量 调度 方法 | ||
本发明提出一种面向机器学习框架的流量调度方法,它是一种高效的数据中心中分布式机器学习框架流量调度机制,在无法获取应用流信息的场景下,在组流的层面上利用机器学习流量的自相似性实现高效的调度策略。该机制将流的速率控制与流量调度进行有机结合,通过及时的速率控制帮助了有效的流信息推测在流传输过程中的完成,同时基于推测结果的调度策略合理的引导了流在不同网络环境下的速率控制。
技术领域
本发明涉及数据中心网络中一种提高机器学习应用流量调度性能的方案,属于计算机网络领域。
背景技术
近年来机器学习领域的技术突破使得越来越多的大型商业公司加大了对其人工智能应用的投入研发。为了推进研发进度,各个公司推出了不同的机器学习框架来充分利用物理计算机集群的计算资源。集群内资源的调度对高效的完成机器学习任务十分重要,其中网络资源的分配尤为关键。机器学习任务完成过程中通常会产生大量流量,这些流量进入集群网络(数据中心网络)容易引发网络拥塞进而延长任务的完成时间。网络拥塞产生主要有两方面的原因:(1)缺乏应用语义感知机制,传统的数据中心网络由于无法区分不同应用对于网络的差异化需求,其所提供的公平服务会导致使得网络成为应用性能提升的瓶颈;(2)传统的网络传输速率控制机制不适用于数据中心网络,数据中心网络中的流量汇聚模式容易引发数据包丢失,从而降低传输性能。
在机器学习任务占据集群的大量工作负载之前,组流已经被证明是一种有效的提升数据中心中分布式计算框架的网络性能的有效模型。基于组流的调度方案优于传统的基于流的方案的原因在于,组流包含了分布式应用对网络的实时需求。举个例子来讲,有来自同一个分布式应用的多条流经过不同链路到达同一个接收方,并且应用要求接收方在完成所有流的传输后才能进入下一个计算阶段;此时其中一条流所在链路发生拥塞,那么在基于流的调度方案中,一条流的拥塞信号只能对这条流本身的速率控制机制产生影响;而对于将上述多条流逻辑上看作为一个组流的组流调度方案来讲,则会适当地降低其他流的速率来避免不必要的带宽占用。
因此,可以预期,实现分布式机器学习框架组流层面的流量调度将带来极大的网络性能提升。
但是,遗憾的是,如果缺乏流信息的组流方案则效果有限。这是因为,实现分布式机器学习框架组流层面的流量调度后,组流调度策略决定了拥塞发生时的组流调度性能。不同于基于流的调度方案,组流本身的定义决定了其具备最优的调度策略:组流的优先级由组流内最慢的流决定,这是因为组流的完成时间取决于最后一个流的完成。现有技术因缺乏流信息的有效组流方案,因此效果有限,其需要依据流发送数据包的数量来预测流的大小并将其置于不同的优先级队列,调度性能依赖于预测的准确性同时流的速率控制无法进行显式控制。
发明内容
本发明的目的是为了解决组流方案的问题,提出一种面向机器学习框架的流量调度方法。
本发明所述的面向机器学习框架的流量调度方法中,所述机器学习用于通过数据并行模型在大规模的数据集下获得不同的机器学习模型;在所述机器学习中,大规模的数据集被划分到多个分布式结点进行存储;运行于分布式结点的工作实例依据本地的部分数据集训练并得到模型参数的梯度值,并发送到超参数服务器进行模型的更新;超参数服务器汇合多组梯度值进行模型训练,并将更新后的模型参数下发回给工作实例;其特征在于,将多个工作实例发往同一个超参数服务器的流组织成一个组流,将超参数服务器发往多个实例的流组织成为另一个组流,实现分布式机器学习框架在组流层面的流量调度。
进一步地,还包括组流信息推测机制,用于在尽可能快的检测出组流的潜在拥塞能力,组流信息推测机制包括如下步骤:S1、在机器学习任务开始后,基于组流调度框架通过统计活跃流的数量来获取到一个组流内流的个数n;S2、随机挑选组流内的一个流作为探测流并保证其尽快完成数据包的传输,从而得到其流的大小f;S3、结合机器学习组流的自相似性,一个组流的大小可由n*f得到;该组流的大小被等价为对于共享的转发结点的潜在拥塞能力,并被作为判定一个组流的优先级的一个依据;S4、进行优先级更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810569876.6/2.html,转载请声明来源钻瓜专利网。





