[发明专利]基于深度强化学习TD3算法的无人机格斗自主决策方法在审
申请号: | 202210264539.2 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114706418A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 高显忠;候中喜;金泉;王玉杰;邓小龙 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 伍传松 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 td3 算法 无人机 格斗 自主 决策 方法 | ||
本发明公开了一种基于深度强化学习TD3算法的无人机格斗自主决策方法,该方法通过建立无人机运动模型,根据无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,其中,无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,状态转移函数表示为无人机运动模型,根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。本发明根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略,该TD3算法能够解决Q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
技术领域
本发明涉及无人机技术领域,具体涉及一种基于深度强化学习TD3算法的无人机格斗自主决策方法。
背景技术
智能型自主格斗无人机及无人机集群具有改变战场格局的巨大潜力。机动决策是无人机格斗对抗核心技术,研究无人机根据战场态势和任务目标自主机动以取得作战优势具有重要意义。
基于传统的微分对策理论等数学方法研究无人机空中格斗问题时,需要先精确建立数学模型,不论定性问题还是定量问题,前提都需要已知双方的机动策略和性能参数,这在现实中是不可能的。未来格斗中敌方战略意图、战术、出动的装备性能等信息我们一般不可能提前准确预判,以及格斗环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂,其状态方程为非线性微分方程,导致求解困难且计算量巨大,占用大量计算资源且耗时长,当敌我双方无人机数量进一步增加时会发生维度灾难。
深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)虽然适用于解决高维的连续的动作空间问题,但是在无人机格斗环境中使用该算法进行无人机的深度强化学习可能会造成Q值高估的问题,使得无人机的总奖励值始终比较低,也就是说,深度确定性策略梯度算法在Q值高估时,无人机选择的策略有误差,并且误差会越来越大,导致无法找到有效策略,在格斗中无法获得位置优势。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于深度强化学习TD3算法的无人机格斗自主决策方法,能够解决Q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明提供了一种基于深度强化学习TD3算法的无人机格斗自主决策方法,包括步骤:
建立无人机运动模型;
根据所述无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,所述无人机运动模型表示所述无人机空中格斗模型中的状态转移函数;
根据所述无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法根据无人机运动模型,基于马尔可夫决策过程,建立我方无人机和敌方无人机格斗的无人机空中格斗模型,该无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略,该TD3算法能够解决Q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
进一步,所述无人机运动模型包括动力学模型和运动学模型,所述建立无人机运动模型包括:
建立无人机在惯性坐标系中的动力学模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210264539.2/2.html,转载请声明来源钻瓜专利网。