[发明专利]一种基于深度强化学习的无人机意图航迹预测方法有效

申请号：	202110054435.4	申请日：	2021-01-15
公开（公告）号：	CN112947541B	公开（公告）日：	2022-07-26
发明（设计）人：	王玉惠;陈天培;吴庆宪;周泽宇;张逸航;刘昊天	申请（专利权）人：	南京航空航天大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人机意图航迹预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人机意图航迹预测方法，其特征在于，包括以下步骤：

(1)构建意图航迹预测奖励函数模型；所述意图航迹预测奖励函数模型包含机动动作模型和地形模型；

(2)根据奖励函数模型建立深度强化学习网络模型，利用该网络模型进行意图动作的预测，并对深度强化学习网络参数的训练过程进行分析；

(3)对由深度强化学习网络参数得到动作价值函数的过程进行分析，为之后的策略选择做准备；

(4)建立策略模型，对动作价值函数进行选取，从而选择出最佳的飞行动作，并实时生成航迹；

所述步骤(1)包括以下步骤：

(11)建立两个奖励函数：地形的奖励函数和飞行机动动作的奖励函数，总的奖励函数为两个奖励函数的加权和：

r_t＝λ_dr_d+λ_mr_m

其中，r_d为地形的奖励函数，r_m为飞行机动动作的奖励函数，λ_d、λ_m为相应的权重系数；当奖励值为正时，表示建议当前时刻对该动作的选择；当奖励值为负时，表示不建议当前时刻对该动作的选择；

(12)构建地形环境模型，对适合和不适合无人机作战的区域进行划分：按照实际地形环境将规划空间划分为正方形网格，每个网格的初始高度定义为0米，把两个地形环境划分为300*300个独立的网格单元；按照实际地形的等高线，为每个不同的网格单元赋上高度值；进行仿真，生成对应的数字地图；

意图航迹预测的地形威胁奖励函数r₁可表示为：

其中，D表示无人机正处于的作战区域；D_d表示危险作战区域；D_n表示一般作战区域；D_s表示安全作战区域；

建立地形防碰撞奖励函数r₂如下：

其中，d表示无人机与地形之间的距离；d_min表示无人机与地形环境间的最小安全距离，小于该值时极易与地形发生碰撞；d_max表示最大安全距离，大于该值时不会有与地形发生碰撞的危险；

(13)构建无人机动动作模型：设计基本机动单元库，对机动单元进行预测，拟合出敌方意图轨迹；将基本的机动单元按照不同的顺序进行组合，得到无人机的复杂机动动作；无人机复杂机动动作为MR，无人机机动动作与基本机动单元动作Mr之间的关系为：

MR＝f((Mr_i,τ₁),(Mr_i,τ₂),...,(Mr_i,τ_n))

其中，Mr_i(i∈1,2,...,6)表示6种基本机动单元动作；f(·)表示执行复杂机动动作序列，执行MR的时间为τ，将其分为n个间隔：先执行τ₁时刻的基本机动单元，再执行τ₂时刻的基本机动单元，直到执行τ_n时刻的基本机动单元后，表示本次复杂机动动作MR结束；τ₁,τ₂,...τ_n为无人机完成各基本机动单元所需时间，且满足以下关系：

t_min≤τ＝τ₁+τ₂+...+τ_n≤t_max

其中，t_min为无人机完成一次机动所需最短时间，t_max为无人机完成一次机动所需最长时间；将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mr_i的序列，并考虑实际飞行概率，给定基本机动单元衔接的初始概率奖励函数r_m；

所述步骤(2)包括以下步骤：

(21)选择深度神经网络作为深度强化学习中的Q网络；

(22)对网络中参数迭代计算的过程进行分析：在DQN的基础上增加一个同样结构的Q网络，因为相比单层Q网络的深度强化学习多了一层Q网络，利用第一层网络先找出最大动作价值函数对应的动作A_t,choose，计算公式为：

其中，Q^l1是第一层Q网络，是第一层Q网络的网络参数，表示的是第一层Q网络在n+1迭代时的状态位置，是第t+1次迭代时由第一层Q网络的特征向量；利用第二层Q网络去计算动作A_t,choose的动作价值函数y_t，即：

其中，是第二层Q网络，是第二层Q网络的网络参数且与中的参数相同，是第t+1次迭代时由第二层Q网络的特征向量；

执行第t次迭代选中的动作A_t,i后计算该动作的动作价值函数，并与第t-1迭代时执行完动作A_t-1,i的Q值进行比较，来判断动作A_t,i的优良程度；若差值较大则表明当前时刻选择该动作效果较差，建议重新选择动作；若差值较小则表明当前时刻选择该动作效果较好，建议使用该动作，计算公式为：

将结果存储于二叉树的叶节点中，各个二叉树叶节点的值p_t(t∈1,2,...,j)取决于d_t的大小，计算公式为：

p_t＝|d_t|+μ

其中，μ是一个很小的参数，目的是防止p_t为0；

根据优先级采样定理对叶节点进行选择：

引入了重要性采样权重方法恢复被经验回放方法打乱的抽样概率分布，计算公式为：

ω_t(t)＝1/(j·P_t(t))

在历史信息的影响下根据反向传播法更新神经网络参数计算公式为：

其中，为第t次迭代时的Q网络参数；

所述步骤(3)实现过程如下：

当收敛后得到近似神经网络参数，使用动作价值函数的近似过程求得进而计算策略；动作价值函数由神经网络参数θ_t描述，并以状态位置信息作为输入，表达式为：

所述步骤(4)实现过程如下：

通过动作价值函数的计算得出第t+1次迭代时各个动作的价值函数，大概率选择行为值最大的动作，使算法最终趋于稳定，表达式为：

π_t+1＝(π₁∧π₂)

其中，表示选择行为值最大的动作，表示选择除去行为值最大动作的其他动作；通过贪婪值ε∈(0,1)来执行π₁或π₂的选择，贪婪值ε的初始值由人为给定，并会随着迭代的进行不断减小，通过贪婪值ε的不断变化诱导动作的选择。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110054435.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种胶带加长封箱机机芯
下一篇：用于核磁共振成像的可调谐圆柱超构表面器件

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的无人机意图航迹预测方法有效

专利文献下载