[发明专利]一种基于安全模型强化学习的数据中心制冷控制算法有效
申请号: | 202111113046.0 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113848711B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 万剑雄;段彦夺;李雷孝;云培研 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 010052 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 安全 模型 强化 学习 数据中心 制冷 控制 算法 | ||
本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;通过ε‑greedy策略形成执行行为;然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;通过调用Plan函数实现学习最优策略和值函数;通过MPCS函数解决MPC问题。本发明可以快速学习到接近最优的控制策略,而不会严重违反温度约束。
技术领域
本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法。
背景技术
数据中心冷却管理问题可以描述为离散时间的马尔可夫决策过程(MDP,MarkovDecision Processes)。在每个时间步,冷却控制器观察当前系统状态,并选择一个可执行的行为,在不违反温度约束的情况下尽可能地降低冷却功耗。传统的强化学习算法需要与环境进行大量的交互,以收集足够的经验进行算法训练。但是,在生产数据中心中,这是不可接受的,因为收敛到一个好的控制策略需要太多的时间,而且收敛前的性能无法保证。并且,强化学习算法的反复试错性质不适用于数据中心等关键任务设施。
发明内容
针对上述传统的强化学习算法需要与环境进行大量的交互的技术问题,本发明提供了一种效率高、误差小、成本低的基于安全模型强化学习的数据中心制冷控制算法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
S2、通过ε-greedy策略形成执行行为;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
S4、通过调用Plan函数实现学习最优策略和值函数;
S5、通过MPCS函数解决MPC问题。
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型估计,同时系统动力学模型Mθ和风险模型分别是参数化为θ和的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
所述Δ是一个常量,并且Δ>0,所述为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数为了产生一个安全探索行为,首先形成一个动作集合A由K个动作组成,所述其中中k∈{1,...,K},所述是在行为空间中均匀采样得到的,然后将行为与概率相关联,公式定义如下:
所述为概率;
最终的安全探索行为将使用分布从A中采样得到,并且具有较高风险的行为将以较小的概率抽样,Δ控制较安全的行为的优先次序:采用较安全行动的概率随Δ的减小而增加。
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111113046.0/2.html,转载请声明来源钻瓜专利网。