[发明专利]一种基于强化学习的振动台前馈控制方法及控制系统在审

申请号：	202210973670.6	申请日：	2022-08-15
公开（公告）号：	CN115356926A	公开（公告）日：	2022-11-18
发明（设计）人：	张祥义;张曼生;马伯涛;葛家琪;张国军;刘金泰	申请（专利权）人：	中国航空规划设计研究总院有限公司
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京中建联合知识产权代理事务所(普通合伙) 11004	代理人：	孙彦斌
地址：	100120 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习振动台前控制方法控制系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的振动台前馈控制方法，其特征在于，包括：

对振动台的系统特性进行系统辨识与模型构建，得到振动台深度网络模型；

建立前馈网络补偿器模型，并将所述前馈网络补偿器模型与所述振动台深度网络模型串联，得到补偿器和振动台的串联控制系统模型；

将所述串联控制系统模型的输入信号和输出信号的逼近作为目标，采用监督学习算法训练所述前馈网络补偿器模型，得到前馈网络补偿器训练模型；

建立强化学习代理器，并基于所述强化学习代理器对所述前馈网络补偿器训练模型进行强化学习，得到所述前馈网络补偿器训练模型的最优控制策略。

2.根据权利要求1所述的基于强化学习的振动台前馈控制方法，其特征在于，所述对振动台的系统特性进行系统辨识与模型构建，得到振动台深度网络模型进一步包括：

获取振动台系统的训练样本，并基于所述训练样本对所述振动台系统进行系统辨识，得到振动台系统特征数据，所述训练样本包括所述振动台系统的输入实测数据和输出实测数据；

基于所述振动台系统特征数据，采用LSTM算法建立振动台深度网络模型，所述振动台深度网络模型的网络结构包括输入层，至少2个隐藏层，全连接层和输出层，所述隐藏层设置至少30个节点。

3.根据权利要求2所述的基于强化学习的振动台前馈控制方法，其特征在于，所述振动台深度网络模型以最小化损失函数为目标更新网络参数，参数优化算法采用ADAM，损失函数采用MSE，损失函数的计算公式为：

式中，MSE为损失函数，y_i为期望输出，f(x_i)为系统实际输出，m为训练样本数量。

4.根据权利要求2所述的基于强化学习的振动台前馈控制方法，其特征在于，所述振动台深度网络模型的输入-输出信号与所述振动台系统的输入-输出信号一致。

5.根据权利要求1所述的基于强化学习的振动台前馈控制方法，其特征在于，所述建立前馈网络补偿器模型，并将所述前馈网络补偿器模型与所述振动台深度网络模型串联，得到补偿器和振动台的串联控制系统模型进一步包括：

采用LSTM算法建立前馈网络补偿器模型，并将所述前馈网络补偿器模型与所述振动台深度网络模型串联，得到补偿器和振动台的串联控制系统，其中所述前馈网络补偿器模型的网络结构包括输入层，至少2个隐藏层，全连接层和输出层，所述隐藏层设置至少30个节点，参数优化算法采用ADAM，损失函数采用MSE，损失函数的计算公式为：

式中，MSE为损失函数，y_i为期望输出，f(x_i)为系统实际输出，m为训练样本数量。

6.根据权利要求1所述的基于强化学习的振动台前馈控制方法，其特征在于，所述将所述串联控制系统模型的输入信号和输出信号的逼近作为目标，采用监督学习算法训练所述前馈网络补偿器模型，得到前馈网络补偿器训练模型包括：

以最小化串联控制系统模型的输入和输出信号作为目标进行训练，训练过程中固定所述振动台深度网络模型的参数，仅更新所述前馈网络补偿器模型的参数，并将所述振动台深度网络模型的输出引入损失函数MSE对所述前馈网络补偿器模型进行训练，得到前馈网络补偿器训练模型，其中损失函数的计算公式为：

式中，MSE为损失函数，x_i是期望输出，f(x_i)为前馈网络补偿器模型的输出，G(f(x_i))为振动台网络模型的输出，m为训练样本数量。

7.根据权利要求1所述的基于强化学习的振动台前馈控制方法，其特征在于，所述建立强化学习代理器，并基于所述强化学习代理器对所述前馈网络补偿器训练模型进行强化学习，得到所述前馈网络补偿器训练模型的最优控制策略进一步包括：

采用DDPG算法建立强化学习代理器；

基于所述强化学习代理器对所述前馈网络补偿器训练模型进行自主探索训练以及更新模型的网络参数，得到所述前馈网络补偿器训练模型的最优控制策略；

根据振动台的系统特性对所述最优控制策略进行在线调整和优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国航空规划设计研究总院有限公司，未经中国航空规划设计研究总院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210973670.6/1.html，转载请声明来源钻瓜专利网。

上一篇：接收端视频处理方法、装置、设备及存储介质
下一篇：视频数据重组方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的振动台前馈控制方法及控制系统在审

专利文献下载