[发明专利]一种基于强化学习的振动台前馈控制方法及控制系统在审
申请号: | 202210973670.6 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115356926A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 张祥义;张曼生;马伯涛;葛家琪;张国军;刘金泰 | 申请(专利权)人: | 中国航空规划设计研究总院有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京中建联合知识产权代理事务所(普通合伙) 11004 | 代理人: | 孙彦斌 |
地址: | 100120 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 振动 台前 控制 方法 控制系统 | ||
本发明公开了一种基于强化学习的振动台前馈控制方法及控制系统,包括对振动台进行系统辨识与模型构建,得到振动台深度网络模型;建立前馈网络补偿器模型,与振动台深度网络模型串联,得到补偿器和振动台的串联控制系统模型;将串联控制系统模型的输入信号和输出信号的逼近作为目标,采用监督学习算法训练前馈网络补偿器模型,得到前馈网络补偿器训练模型;建立强化学习代理器,对前馈网络补偿器训练模型进行强化学习,得到前馈网络补偿器训练模型的最优控制策略。本发明通过强化学习代理器在前馈控制环节中基于系统特性在线调整和优化控制策略,提高了振动台前馈控制稳定性,并且前馈补偿算法不需要进行离线迭代,提升前馈补偿环节的运行效率。
技术领域
本发明属于结构实验和智能控制技术领域,特别涉及一种基于强化学习的振动台前馈控制方法及控制系统。
背景技术
地震模拟振动台的前馈补偿控制也称为数字迭代控制、迭代学习控制、频谱迭代控制、功率谱复现控制或时域波形复现控制,其原理是对目标波形和振动台台面反馈波形的傅里叶谱、功率谱或反应谱进行比较得到振动台系统等效传递函数或传递函数矩阵的非参数化模型,通过对非参数化模型取逆或直接比对目标波形和反馈波形的频谱差异进而对驱动信号的调整和修正,经过对驱动信号的多次迭代达到提升反馈波形再现精度的目的。但由于驱动信号的调整一般离线进行,当试验过程中系统特性发生非线性改变时,前馈补偿往往难以达到理想的效果,且在实际应用中,迭代过程往往比较耗时,迭代的收敛性还有可能变差甚至产生发散的现象,当迭代所采用的信号幅值较大时还有可能造成试件的损坏。
发明内容
为了解决上述问题,本发明提供了一种基于强化学习的振动台前馈控制方法及控制系统,以解决现有前馈补偿算法耗时长且控制效果不理想的问题。
为实现上述目的,本发明提供了一种基于强化学习的振动台前馈控制方法,包括:
对振动台的系统特性进行系统辨识与模型构建,得到振动台深度网络模型;
建立前馈网络补偿器模型,并将前馈网络补偿器模型与振动台深度网络模型串联,得到补偿器和振动台的串联控制系统模型;
将串联控制系统模型的输入信号和输出信号的逼近作为目标,采用监督学习算法训练前馈网络补偿器模型,得到前馈网络补偿器训练模型;
建立强化学习代理器,并基于强化学习代理器对前馈网络补偿器训练模型进行强化学习,得到前馈网络补偿器训练模型的最优控制策略。
根据本发明的一个具体实施例,对振动台的系统特性进行系统辨识与模型构建,得到振动台深度网络模型进一步包括:
获取振动台系统的训练样本,并基于训练样本对振动台系统进行系统辨识,得到振动台系统特征数据,训练样本包括振动台系统的输入实测数据和输出实测数据;
基于振动台系统特征数据,采用LSTM算法建立振动台深度网络模型,振动台深度网络模型的网络结构包括输入层,至少2个隐藏层,全连接层和输出层,隐藏层设置至少30个节点。
根据本发明的一个具体实施例,振动台深度网络模型以最小化损失函数为目标更新网络参数,参数优化算法采用ADAM,损失函数采用MSE,损失函数的计算公式为:
式中,MSE为损失函数,yi为期望输出,f(xi)为系统实际输出,m为训练样本数量。
根据本发明的一个具体实施例,振动台深度网络模型的输入-输出信号与振动台系统的输入-输出信号一致。
根据本发明的一个具体实施例,建立前馈网络补偿器模型,并将前馈网络补偿器模型与振动台深度网络模型串联,得到补偿器和振动台的串联控制系统模型进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空规划设计研究总院有限公司,未经中国航空规划设计研究总院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210973670.6/2.html,转载请声明来源钻瓜专利网。