[发明专利]一种基于强化学习的失效航天器姿态调整方法在审
| 申请号: | 202211664720.9 | 申请日: | 2022-12-23 |
| 公开(公告)号: | CN115973454A | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 黄静;孟亦真;田路路;孙俊;朱东方 | 申请(专利权)人: | 上海航天控制技术研究所 |
| 主分类号: | B64G1/24 | 分类号: | B64G1/24 |
| 代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 张双红;张静洁 |
| 地址: | 201109 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 失效 航天器 姿态 调整 方法 | ||
1.一种基于强化学习的失效航天器姿态快速调整方法,其特征在于,包括如下步骤:
步骤S1、基于航天器姿态末端约束,建立失效航天器姿态数学模型与约束模型;
步骤S2、基于强化学习算法中的Long-term性能指标函数,建立评判标准和Critic网络;
步骤S3、基于Backstepping控制框架结合Action网络和所述Critic网络,建立自适应控制方法,以控制失效航天器进入末端约束域。
2.如权利要求1所述的基于强化学习的失效航天器姿态快速调整方法,其特征在于,所述步骤S1包括:
所述失效航天器姿态数学模型为失效航天器姿态动力学与运动学模型,其计算公式如下:
其中,q=col(qv,q4)为基于四元数的航天器状态描述,qv=[q1,q2,q3]T,下标v表示四元数矢量部分,q1~q4分别表示航天器姿态四元数的四个分量;ω=[ωx,ωy,ωz]T表示航天器本体系B相对惯性系I的三轴旋转角速度,ωx,ωy,ωz分别为航天器x,y,z轴的角速度,J表示航天器正定对称的转动惯量矩阵;τ,Td分别为控制力矩、航天器受到的外部扰动及系统建模误差;In表示n维的单位矩阵,n=3。
3.如权利要求2所述的基于强化学习的失效航天器姿态快速调整方法,其特征在于,所述失效航天器的约束模型包括:
所述失效航天器末端约束根据所述失效航天器的推力器的安装布局和推力矢量,选择如下:
-qm≤q2≤qm
-ωm≤ωy≤ωm
其中,qm,ωm,gmin,gmax分别为第二个姿态四元数参数上限、俯仰角速度上限、第三个姿态四元数与偏航角速度之比的上限。
通过椭球约束域使得上述约束因素同时满足,所述椭球约束域s2如下:
4.如权利要求3所述的基于强化学习的失效航天器姿态快速调整方法,其特征在于,所述步骤S2包括:
基于Long-term性能指标函数如下:
其中,T>0为小的强化学习积分步长;γ∈(0,1)为折扣因子;如果控制系统状态进入吸引域中,则控制目标实现,Long-term性能指标函数J(t)不会增加;如果控制系统状态背离吸引域,则控制器应调节控制输出,使得控制系统状态朝着末端约束域、或者保持在约束域中;
因此,期望的性能指标Jd(t)=0,定义p(s)为包含Long-term性能指标;p(s(ξ))如下:
其中,s2(t)表示t时刻的椭球约束域,s(ξ)表示ξ时刻的椭球约束域的平方根,ξ为积分的时间变量,cp>0为需要设计的松弛因子;即:p(s(ξ))=0表征好的控制输出,而p(s(ξ))=1表明当前的控制输出较差;1意味着性能指标函数J(t)的持续增加,使得控制结果变差,航天器姿态背离末端约束域;而0意味着性能指标函数J(t)的持续减少,使得控制结果变好,航天器姿态进入末端约束域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海航天控制技术研究所,未经上海航天控制技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211664720.9/1.html,转载请声明来源钻瓜专利网。





