[发明专利]一种基于强化学习算法的数据中心机房控制方法及装置有效
申请号: | 202010090666.6 | 申请日: | 2020-02-13 |
公开(公告)号: | CN111126605B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 周鹏程;王桂波;徐凤逸 | 申请(专利权)人: | 创新奇智(重庆)科技有限公司 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;H05K7/20;F24F11/63 |
代理公司: | 深圳珠峰知识产权代理有限公司 44899 | 代理人: | 黄伟 |
地址: | 400039 重庆市九龙坡区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 算法 数据中心 机房 控制 方法 装置 | ||
1.一种基于强化学习算法的数据中心机房控制方法,其特征在于,应用于数据中心机房的环境控制系统,所述方法包括:
获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;
使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定;
所述强化学习模型的训练过程包括:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;S为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值;
D:利用公式,计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;d为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,计算Actor网络的梯度,其中,为Actor网络参数的梯度;N为训练样本中的样本数量;∑为求和函数;为Critic输出的Q值关于输入a的梯度;为Actor网络输出动作a关于网络参数的梯度;
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,对Target Actor网络、Target Critic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
2.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
3.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述方法还包括:
获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(重庆)科技有限公司,未经创新奇智(重庆)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090666.6/1.html,转载请声明来源钻瓜专利网。