[发明专利]航天器逆光抵近智能轨道控制方法、装置和存储介质在审
申请号: | 202110450164.4 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113325704A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 袁利;黄煌;韩冬;石恒;魏春岭;李响 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 陈鹏 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 航天器 逆光 抵近 智能 轨道 控制 方法 装置 存储 介质 | ||
1.一种航天器逆光抵近智能轨道控制方法,其特征在于,包括:
根据开普勒轨道动力学方法在仿真环境中建立自身航天器运动轨迹与目标航天器运动轨迹的运动学模型;
从所述运动学模型中获取自身航天器及目标航天器在t0时刻的观测量以及所述目标航天器在t0时刻的速度增量,所述观测量包括:位置信息以及速度信息;
将所述自身航天器的t0时刻的观测量输入训练效果收敛的动作网络计算t0时刻所述自身航天器的速度增量,根据所述速度增量对所述自身航天器的轨道进行控制;
将t0时刻所述自身航天器和目标航天器的观测量和速度增量输入所述各自的运动学模型计算t0+T时刻所述自身航天器和目标航天器的观测量;
根据t0+T时刻所述自身航天器和目标航天器的观测量、t0+T时刻太阳方位角以及t0+T时刻目标航天器和自身航天器之间的方位角,判断按照所述t0时刻的速度增量进行轨道控制后自身航天器是否处于所述目标航天器的逆光观测范围内,目标航天器逆光观测范围包括:所述自身航天器位于所述目标航天器和太阳之间,且所述目标航天器和自身航天器之间的所述方位角小于预设值。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
获取所述自身航天器及目标航天器多个时刻的观测量,及所述自身航天器的对应多个时刻的速度增量;
根据所述多个时刻中每个时刻所述自身航天器和目标航天器之间的距离、太阳方位角以及目标航天器和自身航天器之间的方位角确定对应时刻所述自身航天器的即时奖励函数;
根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数和MADDPG算法在所述仿真环境中对所述自身航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络,所述训练效果收敛的所述动作网络和评价网络的权值更新量小于预设值。
3.根据权利要求2所述的方法,其特征在于:进一步包括:
根据t0+T时刻自身航天器与目标航天器的观测量获取所述自身航天器和目标航天器之间的距离;
当所述距离超过最大距离D时,结束本流程并赋予所述自身航天器恒定惩罚量-r1;
当所述距离不大于所述最大距离D时,设置距离分级奖励转折点L1,根据分级奖励转折点L1设置参数值,具体为:
设置距离分级奖励转折点L2,根据分级奖励转折点L2设置参数值,于全局坐标系下,根据给定太阳的方位角向量S=[sx,sy],计算目标航天器相对于自身航天器的方位角向量具体为:
其中,pax和pay分别表示目标航天器在x和y方向的位置信息;pbx和pby分别表示自身航天器在x和y方向的位置信息,Sx为太阳方位角单位向量在x方向的分量,Sy为太阳方位角单位向量在y方向的分量;
将自身航天器的即时奖励函数确定为:R=R1+R2。
4.根据权利要求3所述的方法,其特征在于,在所述仿真环境中对所述自身航天器的初始动作网络和初始评价网络进行训练调整得到仿真效果收敛的动作网络和评价网络包括:
根据所述多个时刻的观测量、速度增量、即时奖励函数和MADDPG算法的学习率、长期回报折扣因子、每次训练次数、批学习的数据量在所述仿真环境中对所述自身航天器的初始动作网络和初始评价网络进行训练调整,得到权值更新量小于预设值的动作网络和评价网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110450164.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁流体飞轮驱动控制电路
- 下一篇:一种胶水生产用加热搅拌装置