[发明专利]卫星南北保持策略模型的建模方法、系统、获取方法有效
申请号: | 202211408049.1 | 申请日: | 2022-11-10 |
公开(公告)号: | CN115865166B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 吴琳琳;吴新林;何镇武;吴凌根;陈倩茹;王丽颖;张琳娜 | 申请(专利权)人: | 北京航天驭星科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F17/15 |
代理公司: | 北京美智年华知识产权代理事务所(普通合伙) 11846 | 代理人: | 李晨露;梁忠益 |
地址: | 100094 北京市海淀区西北旺镇邓庄南路南侧*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卫星 南北 保持 策略 模型 建模 方法 系统 获取 | ||
1.一种基于Nature DQN的卫星南北保持策略模型的建模方法,其特征在于,包括以下步骤:
S1:初始化模型,获取多组卫星训练状态数据组,每组卫星训练状态数据组包括卫星的初始状态、多个预期轨控时刻和预期轨控次数;每个卫星的初始状态包括初始时刻卫星倾角;
S2:向模型中输入一组卫星训练状态数据组的初始时刻卫星倾角,得到初始时刻之后所有倾角控制行为及所对应输出的Q值,所述Q值为卫星执行倾角控制行为后的回报值;
S3:获取当前时刻卫星倾角,根据贪心策略获得卫星执行的倾角控制行为;
S4:执行倾角控制行为,得到下一时刻卫星倾角;根据下一时刻卫星倾角、南北保持策略奖励函数得到奖励;所述南北保持策略奖励函数采用公式(1):
其中,rt为当前时刻卫星进行倾角控制行为所获得的奖励,Δst为当前时刻的下一时刻倾角差,Δst=st+1-s0,s0为标称轨道的倾角,st+1为当前时刻的下一时刻卫星倾角;当前时刻的下一时刻卫星倾角差为|st+1-s0|;t为当前时刻,t0为与当前时刻距离最近的预期轨控时刻;
S5:将当前时刻卫星倾角、卫星执行的倾角控制行为、奖励和下一时刻卫星倾角作为一组卫星组合状态数据组存入经验池中;
S6:从经验池中取出多组卫星组合状态数据组,根据目标神经网络权值参数计算每个卫星组合状态数据组的目标值;
S7:根据损失函数计算误差,并更新当前神经网络权值参数;
S8:根据值函数更新Q值;将下一时刻卫星倾角作为当前时刻卫星倾角;
S9:重复执行步骤S3-S8,执行步骤S3-S8的次数等于该组卫星训练状态数据组的预期轨控次数;每重复执行指定迭代次数的步骤S3-S8后,根据当前神经网络权值参数更新目标神经网络权值参数;
S10:重复执行步骤S2-S9,直到输入完所有卫星训练状态数据组的数据。
2.根据权利要求1所述的基于NatureDQN的卫星南北保持策略模型的建模方法,其特征在于,步骤S1中,卫星倾角为卫星在轨道上的二维倾角,该二维倾角根据卫星轨道倾角和升交点赤经获得;
s=(ix,iy);
其中,s表示卫星在轨道上的二维倾角,i表示卫星轨道倾角,Ω表示升交点赤经。
3.根据权利要求1所述的基于Nature DQN的卫星南北保持策略模型的建模方法,其特征在于,步骤S3中,所述根据贪心策略获得卫星执行的倾角控制行为的方法包括:卫星以第一指定概率随机选择倾角控制行为、或以第二指定概率执行最大Q值所对应的倾角控制行为;第一指定概率和第二指定概率之和等于1。
4.根据权利要求1所述的基于Nature DQN的卫星南北保持策略模型的建模方法,其特征在于,步骤S6中,所述根据目标神经网络权值参数计算每个卫星组合状态数据组的目标值的方法采用公式(2):
其中,yj表示目标值,γ为折扣值,θ′为目标神经网络权值参数,表示一组卫星组合状态数据组中的下一时刻卫星执行倾角控制行为a后的最大Q值,sj+1表示一组卫星组合状态数据组中的下一时刻卫星倾角,a表示一组卫星组合状态数据组中的当前时刻卫星执行的倾角控制行为,rj表示一组卫星组合状态数据组中的奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天驭星科技有限公司,未经北京航天驭星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211408049.1/1.html,转载请声明来源钻瓜专利网。