[发明专利]基于深度强化学习TD3算法的无人机格斗自主决策方法在审
申请号: | 202210264539.2 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114706418A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 高显忠;候中喜;金泉;王玉杰;邓小龙 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 伍传松 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 td3 算法 无人机 格斗 自主 决策 方法 | ||
1.一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,包括步骤:
建立无人机运动模型;
根据所述无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,所述无人机运动模型表示所述无人机空中格斗模型中的状态转移函数;
根据所述无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。
2.根据权利要求1所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,所述无人机运动模型包括动力学模型和运动学模型,所述建立无人机运动模型包括:
建立无人机在惯性坐标系中的动力学模型:
其中,所述g表示重力加速度;所述v表示所述无人机的速度且所述v满足约束条件:vmin≤v≤vmax;航迹倾角γ表示v与水平面的夹角,γ∈[-π/2,π/2];航迹偏角ψ表示v在水平面上的投影与坐标轴X轴的夹角,ψ∈(-π,π];所述nτ表示切向过载;所述nf表示法向过载;所述μ表示滚转角;
建立所述无人机在所述惯性坐标系中的运动学模型:
其中,所述x、所述y和所述z表示所述无人机在所述惯性坐标系下的坐标。
3.根据权利要求2所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,所述状态空间包括:敌方无人机和我方无人机的本身状态和相对状态。
4.根据权利要求3所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,通过如下方式构建所述状态空间:
设定所述敌方无人机和所述我方无人机的本身状态:
S=[xr,yr,zr,xb,yb,zb,vr,vb,γr,γb,ψr,ψb,μr,μb]
基于所述敌方无人机和所述我方无人机的本身状态,设定所述敌方无人机和所述我方无人机的相对状态:
Srb=[D,α,β,vr,vb,γr,γb,ψr,ψb,μr,μb]
其中,xr,yr,zr表示所述我方无人机在三维空间中的坐标值,xb,yb,zb表示所述敌方无人机在所述三维空间中的坐标值,所述vr表示所述我方无人机的速度,所述vb表示所述敌方无人机的速度,所述γr表示所述我方无人机的航迹倾角,所述γb表示所述敌方无人机的航迹倾角,所述ψr表示所述我方无人机的航迹偏角,所述ψb表示所述敌方无人机的航迹偏角,所述μr表示所述我方无人机的滚转角,所述μb表示所述敌方无人机的滚转角,所述D表示所述敌方无人机和所述我方无人机之间的相对距离,水平视线偏角α表示所述敌方无人机和所述我方无人机的视线在水平面上投影与X轴的夹角,纵向视线偏角β表示所述敌方无人机和所述我方无人机的视线与水平面的夹角。
5.根据权利要求2所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,通过如下公式构建所述动作空间:
A=[nτ,nf,ω]
其中,所述nτ表示切向过载,nf表示法向过载,ω表示机体滚转角速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210264539.2/1.html,转载请声明来源钻瓜专利网。