[发明专利]基于强化学习的工业过程最小-最大优化的容错控制方法在审

申请号：	202210358730.3	申请日：	2022-04-06
公开（公告）号：	CN114706356A	公开（公告）日：	2022-07-05
发明（设计）人：	李雪玉;贾林竹;唐彬彬;王立敏;李春	申请（专利权）人：	海南师范大学
主分类号：	G05B19/418	分类号：	G05B19/418
代理公司：	沈阳之华益专利事务所有限公司 21218	代理人：	黄英华
地址：	570100 ***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习工业过程最小最大优化容错控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于强化学习的工业过程最小-最大优化的容错控制方法，其特征在于：包括以下步骤：

(1)在具有执行器故障和外部扰动的原系统状态空间模型基础上建立包含跟踪误差和状态增量的增广状态空间模型，并根据增广状态空间模型提出性能指标函数；

(2)根据性能指标函数提出值函数以及Q函数，并构建相应的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式；

(3)给定能使系统稳定的最初的控制增益与外部扰动增益并收集数据θ^j(k)及ρ_k^j，其中，分别是最初的控制增益和外部扰动增益，θ^j(k)及ρ_k^j是第j次迭代所产生的包含系统生产信息的数据；

(4)通过强化学习更新控制增益K₁^F、外部扰动增益K₂^F；

(5)如果达到迭代结束条件则迭代结束，否则转回步骤(4)继续迭代。

2.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法，其特征在于：所述步骤(1)中的跟踪误差和状态增量的增广状态空间模型为：

其中，x_Δk+1是原系统在k+1时刻和k时刻的状态之差，y_Δk+1是原系统在k+1时刻的跟踪误差；x_Δk是原系统在k时刻和k-1时刻的状态之差，y_Δk是原系统在k时刻的跟踪误差；u_Δk是原系统在k时刻的迭代更新率；w_Δk是原系统在k时刻的外部扰动与在k-1时刻的外部扰动之差；是与{Z_k,u_Δk,w_Δk}维数相匹配的系统矩阵，组成的{A,B,C,D}是原系统的系统矩阵，I是单位矩阵；α是故障系数；Z_k为增广状态空间模型在k时刻的状态，u_Δk为增广状态空间模型在k时刻的输入，w_Δk为增广状态空间模型在k时刻的外部扰动。