[发明专利]一种面向短时多变大数据作业集群调度自适应性配置方法有效

申请号：	201910837799.2	申请日：	2019-09-05
公开（公告）号：	CN110737529B	公开（公告）日：	2022-02-08
发明（设计）人：	韩锐;刘驰;刘子峰;李泽清	申请（专利权）人：	北京理工大学
主分类号：	G06F9/50	分类号：	G06F9/50;G06F9/48;G06N3/08;H04L67/10;H04L67/60
代理公司：	北京中海智圣知识产权代理有限公司 11282	代理人：	杨树芬
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向短时多变大数据作业集群调度自适应性配置方法。所述方法是针对云平台异构、动态负载的集群调度器配置优化，对云平台负载的异构性和短时多变的特点所提出的一个自适应的集群调度器配置优化的方法；云平台负载能够分为服务类应用和分析类应用，不同的分类在资源的消耗上，对时间的要求上都不相同。本发明所述方法根据作业的状态信息和集群环境的信息来调整集群调度器的配置，使其始终处于最佳的调度配置，从而提高作业性能，降低作业延迟，能更好适应云平台的异构负载，并能更好的找到与当前集群状态相对应的优化配置项，使得集群作业等待时间接近最小化，提高了作业效率，有效调度了短时多变的大数据作业。
搜索关键词：	一种面向多变数据作业集群调度自适应性配置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向短时多变大数据作业集群调度自适应性配置方法，其特征在于，包括以下步骤：/n步骤1，初始化各模块：/nController模块用于初始化Env模块、Agent模块并控制预训练阶段、正式运行阶段、评估阶段代码的执行；Controller模块按照系统运行时的需求不同分为两个子类；/nController模块是在正常的使用系统优化集群调度器配置时使用的，Controller模块初始化一个Env模块，环境的交互、Controller模块是集群环境的被动观察者，对集群的修改仅限于代理动作对集群调度器配置项的修改；另一个Controller子类被称为EvaluationController模块，EvaluationController模块用于评估系统的性能时使用；EvaluationController模块初始化一个EvaluationEnv模块，控制初始化环境并在运行结束时对系统进行评估；/nController模块包含预训练断点重启功能，在预训练阶段，每在一个预设动作下完成一个运行周期，把当前的经验回放内存保存为本地文件，调用经验回放内存的保存和加载功能，当从断点恢复时，只需加载最近的经验回放内存就能够继续训练；Agent模块位于Controller模块之中用于深度强化学习代理，任务是学习和决策，由于本发明使用的是Rainbow算法中设计的神经网络模型，在Agent的设计中包含神经网络模型并根据系统的具体设计编写训练代理的代码；/n步骤2，使用样本生成器生成样本进行预训练；/n步骤3，初始化集群状态：/n读取初始化集群的状态并判断集群使用的调度器类型，以便于DRL优化器在之后根据不同的调度器类型，即capacity调度器及fair调度器选择不同的动作执行方法，在使用capacity调度器时，更新capacity-scheduler.xml文件并刷新集群队列配置项；使用fair调度器时，更新fair-scheduler.xml并刷新队列配置项，使用不同调度器时，获得的集群状态，并将集群状态转换为相同格式；集群环境交互模块；对负责和环境交互的Env模块进行更深层次的分析，Env模块有以下使用场景：在谷歌集群历史负载日志进行预训练时及在正式运行系统时和在测试评估系统性能时，能够得到Env模块的功能是以下4点：/n1、获取集群的状态；/n2、计算深度强化学习代理执行的回报；/n3、执行深度强化学习代理的决策；/n4、在使用SLS模拟进程结束时，重启SLS和YARN集群；/nSLS是apache官方提供的调度器模拟工具，能够模拟App资源请求与资源分配过程，分析调度器的负载与性能；/n在本发明中，将Env模块分为了3个子模块，对应3个场景：/n1、PreTrainEnv模块：负责在预训练阶段使用不同的配置项和预训练数据集启动SLS，并提供接口，以便于其他模块获取集群的当前状态、使用集群当前状态计算获得的回报和当前执行的配置项的信息；/n2、EvaluationEnv模块；EvaluationEnv模块负责在评估测试系统性能时与集群环境的交互工作，类似于PreTrainEnv模块，EvaluationEnv模块使用测试数据集启动集群，并提供接口以便于其他模块获取集群的当前状态、使用集群当前状态计算获得的回报的信息，在测试结束时，提供作业的总运行时间，以便于其他模块对深度学习代理的优化性能做出评估；/n3、Env模块；Env模块用于非评估阶段时的与集群环境的交换工作，Env模块只提供接口，以便于获取当前集群的状态和计算获得的回报；/n步骤4，获取集群状态并进行预处理，然后转换为张量状态的DRL可处理的集群状态，并调用EvaluationEnv模块中的get_state_tensor方法；/n步骤5，使用贪婪算法进行决策，选取一个调度动作；将当前时刻集群的状态输入至代理的DQN中，DQN输出当前的决策结果，之后将决策结果执行，也就是对集群调度器进行配置调整；DQN是将Q learning和卷积神经网络结合在一起，由Mnih在2013年首次提出；即在默认情况下，DRL代理有0.1％的情况下会随机的在动作空间中选择一个动作执行；除此之外，DRL代理将会按照状态张量来进行决策，即使用贪婪算法进行决策；/n步骤6，执行步骤5的选择的动作并让调度器观察回报和执行后获得的下一个状态，调用EvaluationEnv的step方法；DRL将决策的结果传入环境模块中，环境模块将动作执行，之后再次使用环境模块观察动作执行的回报并获取执行结束后的集群状态，即下一个状态：/n奖励函数；每一步时间t中，奖励估计动作a的执行表现，在集群调度中由完成的工作延迟表现；奖励由平均工作延迟表示，DRL代理的目标就是将奖励最大化即最小化工作延迟，如下式(4)；/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910837799.2/，转载请声明来源钻瓜专利网。

上一篇：降低执行机器学习任务的计算成本的方法和系统
下一篇：一种提升HANDLE标识解析系统收包能力的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向短时多变大数据作业集群调度自适应性配置方法有效

专利文献下载