[发明专利]一种基于深度强化学习的无人机意图航迹预测方法有效
| 申请号: | 202110054435.4 | 申请日: | 2021-01-15 |
| 公开(公告)号: | CN112947541B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 王玉惠;陈天培;吴庆宪;周泽宇;张逸航;刘昊天 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G05D1/10 | 分类号: | G05D1/10 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210016 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 无人机 意图 航迹 预测 方法 | ||
1.一种基于深度强化学习的无人机意图航迹预测方法,其特征在于,包括以下步骤:
(1)构建意图航迹预测奖励函数模型;所述意图航迹预测奖励函数模型包含机动动作模型和地形模型;
(2)根据奖励函数模型建立深度强化学习网络模型,利用该网络模型进行意图动作的预测,并对深度强化学习网络参数的训练过程进行分析;
(3)对由深度强化学习网络参数得到动作价值函数的过程进行分析,为之后的策略选择做准备;
(4)建立策略模型,对动作价值函数进行选取,从而选择出最佳的飞行动作,并实时生成航迹;
所述步骤(1)包括以下步骤:
(11)建立两个奖励函数:地形的奖励函数和飞行机动动作的奖励函数,总的奖励函数为两个奖励函数的加权和:
rt=λdrd+λmrm
其中,rd为地形的奖励函数,rm为飞行机动动作的奖励函数,λd、λm为相应的权重系数;当奖励值为正时,表示建议当前时刻对该动作的选择;当奖励值为负时,表示不建议当前时刻对该动作的选择;
(12)构建地形环境模型,对适合和不适合无人机作战的区域进行划分:按照实际地形环境将规划空间划分为正方形网格,每个网格的初始高度定义为0米,把两个地形环境划分为300*300个独立的网格单元;按照实际地形的等高线,为每个不同的网格单元赋上高度值;进行仿真,生成对应的数字地图;
意图航迹预测的地形威胁奖励函数r1可表示为:
其中,D表示无人机正处于的作战区域;Dd表示危险作战区域;Dn表示一般作战区域;Ds表示安全作战区域;
建立地形防碰撞奖励函数r2如下:
其中,d表示无人机与地形之间的距离;dmin表示无人机与地形环境间的最小安全距离,小于该值时极易与地形发生碰撞;dmax表示最大安全距离,大于该值时不会有与地形发生碰撞的危险;
(13)构建无人机动动作模型:设计基本机动单元库,对机动单元进行预测,拟合出敌方意图轨迹;将基本的机动单元按照不同的顺序进行组合,得到无人机的复杂机动动作;无人机复杂机动动作为MR,无人机机动动作与基本机动单元动作Mr之间的关系为:
MR=f((Mri,τ1),(Mri,τ2),...,(Mri,τn))
其中,Mri(i∈1,2,...,6)表示6种基本机动单元动作;f(·)表示执行复杂机动动作序列,执行MR的时间为τ,将其分为n个间隔:先执行τ1时刻的基本机动单元,再执行τ2时刻的基本机动单元,直到执行τn时刻的基本机动单元后,表示本次复杂机动动作MR结束;τ1,τ2,...τn为无人机完成各基本机动单元所需时间,且满足以下关系:
tmin≤τ=τ1+τ2+...+τn≤tmax
其中,tmin为无人机完成一次机动所需最短时间,tmax为无人机完成一次机动所需最长时间;将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mri的序列,并考虑实际飞行概率,给定基本机动单元衔接的初始概率奖励函数rm;
所述步骤(2)包括以下步骤:
(21)选择深度神经网络作为深度强化学习中的Q网络;
(22)对网络中参数迭代计算的过程进行分析:在DQN的基础上增加一个同样结构的Q网络,因为相比单层Q网络的深度强化学习多了一层Q网络,利用第一层网络先找出最大动作价值函数对应的动作At,choose,计算公式为:
其中,Ql1是第一层Q网络,是第一层Q网络的网络参数,表示的是第一层Q网络在n+1迭代时的状态位置,是第t+1次迭代时由第一层Q网络的特征向量;利用第二层Q网络去计算动作At,choose的动作价值函数yt,即:
其中,是第二层Q网络,是第二层Q网络的网络参数且与中的参数相同,是第t+1次迭代时由第二层Q网络的特征向量;
执行第t次迭代选中的动作At,i后计算该动作的动作价值函数,并与第t-1迭代时执行完动作At-1,i的Q值进行比较,来判断动作At,i的优良程度;若差值较大则表明当前时刻选择该动作效果较差,建议重新选择动作;若差值较小则表明当前时刻选择该动作效果较好,建议使用该动作,计算公式为:
将结果存储于二叉树的叶节点中,各个二叉树叶节点的值pt(t∈1,2,...,j)取决于dt的大小,计算公式为:
pt=|dt|+μ
其中,μ是一个很小的参数,目的是防止pt为0;
根据优先级采样定理对叶节点进行选择:
引入了重要性采样权重方法恢复被经验回放方法打乱的抽样概率分布,计算公式为:
ωt(t)=1/(j·Pt(t))
在历史信息的影响下根据反向传播法更新神经网络参数计算公式为:
其中,为第t次迭代时的Q网络参数;
所述步骤(3)实现过程如下:
当收敛后得到近似神经网络参数,使用动作价值函数的近似过程求得进而计算策略;动作价值函数由神经网络参数θt描述,并以状态位置信息作为输入,表达式为:
所述步骤(4)实现过程如下:
通过动作价值函数的计算得出第t+1次迭代时各个动作的价值函数,大概率选择行为值最大的动作,使算法最终趋于稳定,表达式为:
πt+1=(π1∧π2)
其中,表示选择行为值最大的动作,表示选择除去行为值最大动作的其他动作;通过贪婪值ε∈(0,1)来执行π1或π2的选择,贪婪值ε的初始值由人为给定,并会随着迭代的进行不断减小,通过贪婪值ε的不断变化诱导动作的选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110054435.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种胶带加长封箱机机芯
- 下一篇:用于核磁共振成像的可调谐圆柱超构表面器件





