[发明专利]一种面向机器学习框架的流量调度方法有效
| 申请号: | 201810569876.6 | 申请日: | 2018-06-05 |
| 公开(公告)号: | CN108768876B | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 江勇;李清;杨光 | 申请(专利权)人: | 清华大学深圳研究生院 |
| 主分类号: | H04L47/10 | 分类号: | H04L47/10;H04L41/14;H04L47/50;H04L47/6275 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 机器 学习 框架 流量 调度 方法 | ||
1.一种面向机器学习框架的流量调度方法,所述机器学习用于通过数据并行模型在大规模的数据集下获得不同的机器学习模型;在所述机器学习中,大规模的数据集被划分到多个分布式结点进行存储;运行于分布式结点的工作实例依据本地的部分数据集训练并得到模型参数的梯度值,并发送到超参数服务器进行模型的更新;超参数服务器汇合多组梯度值进行模型训练,并将更新后的模型参数下发回给工作实例;其特征在于,将多个工作实例发往同一个超参数服务器的流组织成一个组流,将超参数服务器发往多个实例的流组织成为另一个组流,实现分布式机器学习框架在组流层面的流量调度;
包括组流信息推测机制,用于在尽可能快的检测出组流的潜在拥塞能力,组流信息推测机制包括如下步骤:
S1、在机器学习任务开始后,基于组流调度框架通过统计活跃流的数量来获取到一个组流内流的个数n;
S2、随机挑选组流内的一个流作为探测流并保证其尽快完成数据包的传输,从而得到其流的大小f;
S3、结合机器学习组流的自相似性,一个组流的大小可由n*f得到;该组流的大小被等价为对于共享的转发结点的潜在拥塞能力,并被作为判定一个组流的优先级的一个依据;
S4、进行优先级更新;
在优先级更新启动前,来自新任务的非探测流进入活跃队列,以确保其本身在当前网络配置下不被饿死的最低发送速率进行发包;
当流优先级更新定时器超时,所有的非探测流,包含未完成的组流,依据其所属的探测流的探测结果进入相应的优先级队列;探测流大小通过影响组流大小的推测来决定非探测流的优先级,优先级更新确保短作业优先的调度策略;
来自于新产生的机器学习任务中组流需要经过信息推测才能被添加到活跃的组流集合中;在信息推测过程中,依据接收端超参数服务器所属的边缘交换机随机选取新任务中多个组流中的一个组流;对于被选取的组流,依据发送端工作实例所处的物理主机随机选取一个流作为探测流;
来自探测流的数据包被打上标记进入探测队列,享有最高优先级;探测流由随机选择得到的组流中随机指定,即探测流的选取采用双重随机设计;
探测流的最高优先级结合弹性速率控制算法以确保探测流发送速率的快速增长;
弹性速率控制算法包括:在有足够可用带宽的情况下,流的速率呈倍增加来快速的占用可用带宽来提升链路利用率。
2.根据权利要求1所述的面向机器学习框架的流量调度方法,其特征在于:在端系统采集组流内各个流所经过的链路的RTT信息来估计可用的带宽,实现基于端系统的速率控制;并通过设置发送窗口大小的方式来与现有TCP/IP协议兼容。
3.根据权利要求2所述的面向机器学习框架的流量调度方法,其特征在于,对于一个流f,目标速率即下一个周期所希望发送的数据包数目,由如下公式计算得到:
elastic_gain*f.max_rtt/f.min_rtt
其中预设值elastic_gain决定了流的最低发送速率,f.max_rtt表示链路中所能接受的最大队列长度,其大小与网络配置相关;f.min_rtt表示上一个测量周期内链路中的队列长度。
4.一种面向机器学习框架的流量调度系统,用于实现权利要求1-3任一项所述的方法,其特征在于,包括控制器,用于接收发送端周期性的上报的最新的流信息,实现组流语义分析功能;控制器中包含组流信息采集模块、通信模式匹配模块以及组流大小推测模块;
组流信息采集模块用于依据现有流信息将来自机器学习任务的流组织成组流,并识别来自不同训练周期的组流;
通信模式匹配模块用于记录已完成的组流来匹配当前的未完成的组流;匹配成功的组流则不必进入组流大小推测模块,其所属的流直接使用匹配的结果向接收端下发决策;
组流大小推测模块用于实现上述的组流信息推测算法,将新的组流划分为探测流与非探测流并依据组流信息采集模块的结果来更新非探测流的优先级;
控制器还用于周期性的向接收端下发调度决策;位于终端的模块通过弹性流调度来实现所接收到的组流策略,其中包含优先级标注模块、测量结果更新模块以及传输层速率控制模块;
优先级标注模块收到控制器对于组流内各个流的优先级更新信息后,对每个流的数据包标注相应的优先级并确保其进入操作系统内的多级反馈优先级队列来实现短作业优先策略;
测量结果更新模块采集端到端之间链路的RTT信息以及上一个周期内的发送包数量和接收包数量,来为下一步的传输层速率控制模块提供数据基础;
传输层速率控制模块用于计算下一个周期内的发送包数量,并在速率限速器的帮助下,确保有对应的发送包从网卡处正常的发出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810569876.6/1.html,转载请声明来源钻瓜专利网。





