[发明专利]基于双层强化学习的火箭回收制导方法在审
申请号: | 202310057961.5 | 申请日: | 2023-01-15 |
公开(公告)号: | CN116068894A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 李文婷;朱皓同;李洪珏;林岩 | 申请(专利权)人: | 北京航空航天大学;北京航天自动控制研究所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/09;G06N3/045;G06N3/08;G06F17/13 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双层 强化 学习 火箭 回收 制导 方法 | ||
本发明公开了一种基于双层强化学习的火箭回收制导方法,包括构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;其中,火箭回收制导模型基于双层强化学习进行训练,训练过程包括:探索奖励模块接收火箭回收轨迹,生成探索奖励;判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;策略网络模块根据探索奖励和模仿奖励进行更新,当满足迭代次数时结束。本发明采用双层学习框架,具有参数量少、计算能力要求低以及无需迭代等显著优势,且通过奖励鼓励策略广泛探索所有状态空间以提高鲁棒性。
技术领域
本发明涉及火箭回收制导技术领域,更具体的说是涉及一种基于双层强化学习的火箭回收制导方法。
背景技术
目前,针对火箭着陆制导问题,主要采用基于间接法和直接法的轨迹优化方法,
间接法通过引入协变量,建立哈密尔顿函数,将轨迹优化问题转化为两点边值问题,最终求解一个非线性方程组;但该方法仅能满足最优解的一阶必要条件,无法满足解的最优性,且将轨迹优化问题转化为两点边值问题,收敛性也难以保证。
而直接法将轨迹问题转化为非线性规划问题,通过对指标和约束进行凸化,使其满足KKT条件,将复杂的着陆制导问题转化为易于求解的凸优化问题。但对于存在非线性很强、非凸因素很多的轨迹很难转化为凸优化问题,使得该方法的应用的仅局限在非线性较弱、非凸因素较少的领域。
同时,上述间接法和直接法的轨迹优化方法都涉及到迭代求解,考虑到目前箭载计算机的计算能力相对较弱,在优化问题复杂的情况下可能需要十几秒才能求出结果,无法满足航天器轨迹优化的实时性要求,且基于监督学习的方法需要构建大量的训练数据,从而使神经网络制导律限定在训练数据范围内,导致制导律的泛化性、鲁棒性较差。
因此,如何进一步研发设计火箭制导方法,以克服上述缺陷是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于双层强化学习的火箭回收制导方法,旨在减少参数量、提高计算速度,以满足实时性要求;通过设计神经网络形式的制导策略,增强其泛化能力和鲁棒性。
本发明公开的基于双层强化学习的火箭回收制导方法,具体包括:
构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;
所述火箭回收制导模型基于双层强化学习进行训练,训练过程包括:
探索奖励模块接收所述火箭回收轨迹,生成探索奖励;
判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;
策略网络模块根据所述探索奖励和所述模仿奖励进行更新,当满足迭代次数时结束。
优选的,所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。
优选的,所述火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,奖励设为5;
所述火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,惩罚设为-5;
所述火箭接近奖励,定义为,火箭比上一时刻更接近回收点,奖励设为0.1。
优选的,所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,所述判别网络模块从所述轨迹池中进行采样。
优选的,所述判别网络模块包括轨迹判别网络和奖励输出网络,
所述轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,
所述奖励输出网络,根据如下公式输出奖励:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;北京航天自动控制研究所,未经北京航空航天大学;北京航天自动控制研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310057961.5/2.html,转载请声明来源钻瓜专利网。