[发明专利]基于深度强化学习的主动流动控制器及控制方法有效
申请号: | 202110572871.0 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113296408B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 郑畅东;季廷炜;谢芳芳;张鑫帅;郑鸿宇;郑耀 | 申请(专利权)人: | 浙江大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 主动 流动 控制器 控制 方法 | ||
1.一种基于深度强化学习的主动流动控制器,其特征在于,所述主动流动控制器用于根据圆柱体周围的流场信息输出执行动作控制布置于圆柱体表面的吹吸装置;所述主动流动控制器由人工神经网络组成,通过如下方法训练获得:
步骤S1,构建包含主动流动控制器的决策智能体与涡致振动数值模拟环境;其中,所述涡致振动数值模拟环境用于实时模拟计算圆柱体在最大振动幅度时的流场信息;所述决策智能体中还包含评估者Critic,其中,主动流动控制器作为决策者用于根据圆柱体周围的流场信息输出控制策略,评估者用于根据流场环境信息输出当前状态下采取当前动作的好坏评价,评估者由人工神经网络组成;
步骤S2,涡致振动数值模拟环境模拟计算圆柱体在最大振动振幅条件下的流动情况,当非定常流动以及圆柱横流向运动情况呈现稳定周期性变化时,结束计算并选择其中对应圆柱体质心处于平衡点的时刻作为每一训练幕的初始情况;
步骤S3,开始训练,从每一训练幕的开始,涡致振动数值模拟环境按每个时间步的递进模拟流场变化过程,得到每个时刻的瞬时流场观测状态st,同时计算当前流动状态-动作的奖惩函数rt,并进行判断是否达到本次训练幕的终结态donet;决策智能体接收来自涡致振动数值模拟环境的每个时刻的瞬时流场观测状态st、奖惩函数rt和终结状态变量donet,评估者根据奖惩函数rt作出评价并反馈至决策者,决策者根据评估者的反馈改进控制策略输出对应的每个时刻的执行动作at,改变吹吸装置的喷口速度;其中,瞬时流场观测状态st包含速度场信息和压力场信息;所述奖惩函数rt与圆柱在t~t+1时刻内的升阻力参数和运动参数相关:
rt=aforcet+βmotiont+γbiast+δvariancet
其中,t表示当前时间步,t=0为训练幕选择的对应圆柱体质心处于平衡点的时间步,forcet表示数值模拟给出的t~t+1时间步内圆柱受力的均值,motiont表示t~t+1时间步内圆柱的运动学参数均值,biast表示t时间步执行动作的大小,variancet表示t与t-1时间步执行动作之间的偏差,α、β、γ和δ分别为四部分的权重;
其中,使用Bellman回溯方程,作为评估者训练的目标函数:
其中,π表示当前决策者的控制策略,ρπ表示当前控制策略对应的转移概率分布,θ表示评估者的人工神经网络的参数,是期望,Qθ表示当前评估者人工神经网络给出的状态-动作评估值,表示一个相对更为精准的评估值:
其中,H是在当前观测状态下的策略π所对应的熵,θ为动作熵在估值函数中权重,ω为未来评估项对当前评估的影响因子;·|St表示当前状态下可能使用的所有的动作;
决策者Actor的人工神经网络训练的目标函数:
其中,φ表示决策者的人工神经网络的参数,
若达到一幕最大训练时长限制,则结束本次训练幕;否则,若流场为非终止状态,则继续交互、储存经验数据并训练学习,
若训练幕数已经达到指定的最大训练幕数,则结束全部训练过程,输出控制策略至主动流动控制器;否则,回到步骤S2所计算得到的幕初始流动状态,重新选择对应圆柱体质心处于平衡点的时刻开始一次新的训练幕。
2.如权利要求1所述的主动流动控制器,其特征在于,所述主动流动控制器的人工神经网络结构包含三层全连接隐藏层,每层128个神经单元,激活函数为ReLU函数,输入流场状态s,输出动作的平均值μ(s)和标准差σ(s),最终动作可计算为
a=μ(s)+σ(s)⊙z
其中,评估者的人工神经网络结构包含两层全连接隐藏层,每层128个神经单元,激活函数为ReLU函数,输入流场状态s和执行动作,输出当前状态的好坏Qθ(St,at)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110572871.0/1.html,转载请声明来源钻瓜专利网。