[发明专利]基于温度和硫化氢浓度控制的海洋平台通风系统控制方法有效
| 申请号: | 202210124691.0 | 申请日: | 2022-02-10 |
| 公开(公告)号: | CN114484822B | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 崔璨;薛璟;黎明 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | F24F11/74 | 分类号: | F24F11/74;F24F11/62;G06N3/047;G06N3/048;G06N3/092;G16C20/20;F24F110/10;F24F110/65 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 张媛媛 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 温度 硫化氢 浓度 控制 海洋 平台 通风 系统 方法 | ||
1.一种基于温度和硫化氢浓度控制的海洋平台通风系统控制方法,所述海洋平台包括多个舱室,其特征在于,所述方法包括如下步骤:
S1:建立海洋平台舱室内硫化氢气体浓度变化微分方程;
假设硫化氢气体均匀渗透到舱室内,舱室内送风和排风气流是等温气流;
建立海洋平台舱室内硫化氢气体浓度变化微分方程为:
mi,tyi,tdt+xi,tdt-ki,tSi,tdt=Jids;
Si,t为体积为Ji的舱室i内,空气中初始硫化氢气体浓度,dt为一个很小的时隙,mi,t为通风系统在dt时间内的送风量,yi,t为送风空气中硫化氢浓度,xi,t为硫化氢在dt时间内渗透进舱室i的气体量,ki,t为在dt时间内排出舱室的排风量,ds为dt时间内舱室中硫化氢浓度的增量;
S2:将每个舱室和空气处理机组分别定义为一个智能体,即,1~N号智能体为舱室智能体,第N+1号智能体为空气处理机智能体,共获得N+1个智能体,其中N为海洋平台舱室的数量;采用神经网络拟合以上智能体,每个智能体均包括负责生成策略的actor网络和负责实时评价策略的critic网络;
S3:定义t时刻N+1个智能体的观测量组:
st=ot=(o1,t,...,oN+1,t);
其中:o1,t表示t时刻第1个智能体的观测量,oN+1,t表示t时刻N+1智能体的观测量;
定义各智能体动作a,即舱室智能体及空气处理机智能体动作:
at=(m1,t,m2,t,...,mN,t,σt);
其中:m1,t为t时刻第1个智能体的动作,m2,t为t时刻第2个智能体的动作,σt为t时刻第N+1智能体的动作;
S4:定义舱室智能体的温度超限惩罚函数:
其中:ri,1,t(st)为舱室智能体的温度超限惩罚函数,Ti,t表示第i个舱室在时刻t的舱室内温度,表示舱室内温度的最低允许值,表示舱室内温度的最高允许值;[]+表示仅当[]内取值0时取原值,否则取0;当室内温度超出限制范围的最高温度时,当室内温度低于限制范围的最低温度时,当室内温度稳定在限制范围内时,则ri,1,t(st)=0;
定义空气处理机组智能体的温度超限惩罚函数:
rN+1,1,t=0;
定义舱室智能体的硫化氢浓度超限惩罚函数:
其中:ri,2,t(st)为舱室智能体的硫化氢浓度超限惩罚函数;表示该舱室区域内的硫化氢气体最高允许浓度;
定义空气处理机组智能体硫化氢浓度超限惩罚函数rN+1,2,t:
定义N+1个智能体的奖励函数:
rt=ri,1,t(st)+bri,2,t(st);
其中,rt是第t个智能体的奖励函数,b是一个值为正的耦合因子;
S5:进行智能体训练;
定义动作价值函数Qy(st,at):表示在状态st下采用动作at后得到的期望收益,其中y代表critic网络中训练得到的权值参数;
定义策略价值函数pq(a|s):q是actor网络中的权重参数;
定义智能体i的动作价值函数
其中,fi是一个两层的多层感知机,qi是一个一层的多层感知机嵌入函数,oi表示第i个智能体的观测量,xi代表第i个智能体与其他智能体通信获得的所有信息;
其中:xi=∑j≠iwj(Wvej);
其中,Wv是一个协方差矩阵,ej为嵌入函数:ej=qj(oj,aj);Wk和Wq均为协方差矩阵;
在actor-critic网络中传递协方差矩阵Wv、Wk和Wq,不断训练更新这N+1个critic网络去最小化联合回归的损失函数:
其中:LQ(y)表示损失函数;表示对经验池中所有数据的计算结果求期望;表示权值参数为y时的智能体i的动作价值函数;di表示智能体i的目标奖励值;表示在t时刻权重参数为时的目标策略价值函数;
ri(oi,ai)表示智能体在观测值为o时采取动作a后的收益;γ表示收益的折扣率;表示温度参数,决定混合熵与收益之间的平衡;表示智能体i的近似动作价值函数;表示对经验池中所有数据的计算结果求期望;
因此,可定义随机梯度函数为:
其中,
其中:表示求第i个智能体对应的随机梯度;J(q)表示对应的损失函数;Eo~D,a~p表示对所有可能结果求期望;表示在t时刻权重参数为qi的目标策略价值函数;U表示除智能体i的所有智能体的集合;b(oi,aU)是一个与状态有关的基准值,一般用在策略梯度类方法中减小方差同时不改变策略梯度的期望:
其中:表示在t时刻权重参数为时的策略价值函数,表示智能体i的在观测值为o的情况下的动作价值函数;
进行智能体训练,直至损失函数和随机梯度函数满足训练条件,将训练合格的智能体用于海洋平台通风系统的在线控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210124691.0/1.html,转载请声明来源钻瓜专利网。





