[发明专利]非线性工业系统数据驱动强化学习鲁棒控制方法在审

申请号：	202210765784.1	申请日：	2022-07-01
公开（公告）号：	CN115016286A	公开（公告）日：	2022-09-06
发明（设计）人：	穆朝絮;张勇;蔡光斌;孙长银	申请（专利权）人：	天津大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李林娟
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	非线性工业系统数据驱动强化学习鲁棒控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种非线性工业系统强化学习数据驱动鲁棒控制方法，包括：通过数学等价转换，将最优控制策略转换为数据驱动控制策略，收集系统运行的原始数据，设计数据样本计算模型，收集数据样本到经验池中，直至形成完整数据集合，构建数据驱动控制策略迭代模型；内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统中；设计新型数据样本存储经验池，在外环迭代控制策略用于被控系统之前，提取并处理数据样本形成不完整数据集合，存储不完整数据集合到经验池，将外环迭代控制策略用于被控系统，收集新的数据样本补充经验池直至形成完整数据集合，从而再次进入双闭环框架中的内环迭代。本发明缓解了相邻数据样本相关性对数据驱动算法收敛性的影响。

技术领域

本发明涉及非线性工业系统数据驱动控制领域，尤其涉及一种非线性工业系统数据驱动强化学习鲁棒控制方法，具体非线性工业系统包括但不限于机械臂、伺服电机、倒立摆系统等。

背景技术

随着现代工业水平的发展，非线性工业系统对于生产精度的要求越来越高，因此，非线性工业系统的控制问题一直受到关注。在实际应用中，常见的非线性工业系统，例如：工业机械臂系统、伺服电机系统、倒立摆系统等会由于装配误差、计算误差、摩擦系数波动、电磁波动、负载波动等因素引入各种扰动信号。这些扰动的存在会影响实际控制输出，进而影响最终工业产品品质。例如：机械臂系统中的负载波动可能导致整体转动惯量的变化，进而影响驱动系统输出端转速，从而降低控制精度；伺服电机系统中的计算误差、电磁波动会直接影响控制电压大小，进而影响电机输出力矩，导致输出转速不稳定；倒立摆系统中的装配误差、摩擦系数波动等也会影响驱动电机的输出力矩，从而影响摆臂在平衡位置的稳定性。这些都是现代工业生产中不可避免的一类问题，也是鲁棒控制中需要解决的一类典型问题。传统的非线性工业系统鲁棒控制方法如：变结构控制、反步法控制、模型预测控制等需要依赖精确的数学模型进行控制策略设计。但是，现代工业系统逐渐朝着规模化、复杂化的方向发展，精确的系统数学模型往往难以获得。如果扰动出现时继续使用依赖模型的传统控制方法，系统的控制精度将会降低。因此，发展数据驱动的无模型控制方法具有重要意义。

近年来，强化学习作为一种数据驱动控制方法被用于非线性工业系统控制领域。强化学习根据系统运行数据来寻找最优控制策略，可实现无模型控制。然而，在现有的强化学习鲁棒控制技术中，仍然存在两个问题没有解决：一、当采集的工业系统数据存在不确定性时，算法的稳定性和收敛性将会被影响。异策略算法是一种典型的数据驱动强化学习算法。存在干扰时，异策略算法仅通过有限的历史工业数据得到控制策略，因此无法自适应调整输出。为了减少不确定数据对算法性能的影响，通常设计在线迭代的同策略算法以提高其对工业环境的适应性。然而，这些方法通常需要依赖工业系统的模型信息。二、面对不确定的工业系统场景时，需要尽快地使用少量系统数据得到控制策略。在数据驱动强化学习算法中，数据样本间的线性相关性会影响算法收敛性。在少量的工业系统数据的支持下，特别是对于连续时间控制问题，相邻数据样本的相关性问题更为严重，这将极大影响算法稳定性。近年来，一些自然语言处理的强化学习方案中利用经验回放技术来缓解数据相关性的问题。然而，在基于强化学习的控制领域中，相关技术仍然有待开发。

因此，迫切需要开发一种数据驱动的、自适应性强的非线性工业系统鲁棒控制策略，在不确定数据的影响下，仍然可以实现非线性工业系统如：机械臂、伺服电机、倒立摆等系统的鲁棒控制策略的自适应改进。迫切需要设计一种数据样本处理方法，在连续时间非线性工业系统控制问题中，用于缓解相邻数据样本相关性对数据驱动算法收敛性的影响。

发明内容

本发明提供了一种非线性工业系统数据驱动强化学习鲁棒控制方法，本发明解决了在不确定数据下模型未知非线性工业系统的鲁棒控制问题，实现了非线性工业系统数据驱动鲁棒控制策略的自适应改进，缓解了相邻数据样本相关性对数据驱动算法收敛性的影响，详见下文描述：

一种非线性工业系统强化学习数据驱动鲁棒控制方法，所述方法包括：

针对含有控制信道扰动的非线性工业系统，设计含有鲁棒项的代价函数，给出最优控制策略；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210765784.1/2.html，转载请声明来源钻瓜专利网。

上一篇：具有涂履站分路轮的容器生产设备
下一篇：一种基于SMA螺栓的柔性约束型装配式防屈曲支撑结构

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]非线性工业系统数据驱动强化学习鲁棒控制方法在审

专利文献下载