[发明专利]一种基于深度强化学习的数据中心资源离线调度方法在审

申请号：	201711399661.6	申请日：	2017-12-22
公开（公告）号：	CN109960578A	公开（公告）日：	2019-07-02
发明（设计）人：	不公告发明人	申请（专利权）人：	田文洪;叶宇飞;王金;黄文强
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	暂无信息	代理人：	暂无信息
地址：	610000 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习离线调度数据中心资源计算机技术领域资源调度管理周期性负载调度结果工作负载目标训练目标优化随机负载优化目标质量优化作业调度传统的启发式最小化算法优化测试替代奖励网络学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的数据中心资源离线调度方法，其特征在于，所述数据中心资源离线调度系统包括：

数据源模块，用于生成离线调度作业的数据，数据包括作业的所需资源类型(例如，CPU，内存，I/O)、作业的所需资源大小、离线作业的总体数量；

运行环境模块，用于构建运行环境模型，所述运行环境包含分配的群集资源Cluster、等待作业槽JobSlot。运行环境模块中的所有部分都以单元格的图像表示出来；

评价机制学习模块，用于将获得的信息结合评价机制得到所需要的奖赏函数，奖赏函数作为反馈输送至控制策略学习模块，进行优化网络参数；

控制策略学习模块，用于深度强化学习方法的优化策略学习，通过得到的奖赏函数从而用于指导之后的离线作业调度序列，并通过策略更新神经网络参数，得到所述资源离线调度作业最终的实际操纵策略。

2.根据权利要求1所述的一种基于深度强化学习的数据中心离线资源调度方法，其特征在于，生成离线调度作业的方法为：我们假设两种资源，即容量{1r；1r}，作业持续时间和资源需求选择如下：80％的工作持续时间均在1t和3t之间选择；其余均从10t到15t均匀选择。每个工作都有一个独立的随机挑选的优势资源，对优势资源的需求一般在0.25r和0.5r之间选择，其他资源的需求在0.05r和0.1r之间均匀选择。

3.根据权利要求1所述的一种基于深度强化学习的数据中心资源离线调度方法，其特征在于，离线运行环境包含分配的1个群集资源Cluster、N个等待作业槽JobSlot，其中N为离线作业的数量。群集资源Cluster的每种资源宽度10个网格，高度20个网格，等待作业槽JobSlot的每种资源宽度10个网格，高度20个网格。

4.根据权利要求1所述的一种基于深度强化学习的数据中心资源离线调度方法，其特征在于，深度强化学习的目标是最大化期望的累积奖励：其中γ∈(0,1]是折扣奖励的因子，本发明使用的是基于策略搜索的强化学习方法，通过在策略参数上执行梯度下降来学习的一类强化学习算法，目标是最大化预期的累积贴现奖励，这个目标的梯度由下式给出：

进一步的，是从状态s中选择的动作a并且随后遵循策略π_θ的预期累积奖励，策略梯度方法的关键思想是通过观察遵循策略获得的执行轨迹来估计梯度，在简单的蒙特卡洛方法中，智能体采样多个轨迹，并使用经验计算的累积折扣奖励v_t作为的无偏估计，然后它通过梯度下降更新策略参数：

进一步的，α是步长。这个等式产生了众所周知的增强算法，可以直观地理解如下，方向给出了如何改变策略参数以增加π_θ(s_t,a_t)(在at状态下的动作概率s_t)，方程向这个方向迈出了一步；步长的大小取决于返回v_t有多大，在我们的设计中，我们使用一个轻微的变体，通过从每个返回值v_t中减去一个基线值来减少梯度估计的方差。

5.根据权利要求1所述的一种基于深度强化学习的数据中心资源离线调度方法，其特征在于，在本发明的一个实施例中，我们把最小化平均作业slowdown作为优化目标。对于每个作业j，slowdown由S_j＝C_j/T_j给出，其中C_j是作业的完成时间(即到达和完成执行之间的时间)，T_j是作业的(理想的)持续时间，注意S_j≥1，由此，我们把每个时间步长的奖励设置为其中j是当前在系统中的作业(预定或等待服务)的集合。观察设定折扣因子γ＝1，随着时间的推移，累积报酬与slowdown的总和一致，因此最大化累积奖励，最小化平均slowdown。

6.根据权利要求1所述的一种基于深度强化学习的数据中心资源离线调度方法，其特征在于，在本发明的一个实施例中，使用的深度神经网络是卷积神经网络CNN，网络中的结构如下：第一层输入层，第二层卷积层Conv1，第三层池化层Pool1：MaxPooling，第四层卷积层Conv2，第五层池化层Pool2：MaxPooling，第六层全连接层Local3，第九层全连接层Local4，第10层输出层Softmax。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于田文洪;叶宇飞;王金;黄文强，未经田文洪;叶宇飞;王金;黄文强许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711399661.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于Nginx服务器的集群控制方法以及服务器
下一篇：一种调整业务容器的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的数据中心资源离线调度方法在审

专利文献下载