[发明专利]基于深度强化学习的无人机导航方法、装置、设备及介质在审

申请号：	202210422011.3	申请日：	2022-04-21
公开（公告）号：	CN114910072A	公开（公告）日：	2022-08-16
发明（设计）人：	吴迪;施之羿;黄梦醒;冯子凯;毋媛媛;冯思玲;周家昊;帅文轩;张宏瑞	申请（专利权）人：	海南大学
主分类号：	G01C21/20	分类号：	G01C21/20;G06N3/04;G06N3/08
代理公司：	苏州中合知识产权代理事务所(普通合伙) 32266	代理人：	阮梅
地址：	570000 ***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人机导航方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度强化学习的无人机导航方法，其特征在于，包括如下步骤：

步骤S1，实时获取无人机与环境的交互信息，所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息；

步骤S2，将所述交互信息输入深度强化学习模型中，输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域；

步骤S3，生成最优动作对应的操作指令，并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息，所述反馈信息包括状态、动作、奖励以及下一个状态的序列；

步骤S4，基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数，采用更新了网络参数的深度强化学习模型，重复步骤S1至S3，直至到达目的地。

2.根据权利要求1所述的基于深度强化学习的无人机导航方法，其特征在于，所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络，用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络，以及将所述避障网络和目的地获取网络连接的综合网络，所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。

3.根据权利要求2所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。

4.根据权利要求3所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。

5.根据权利要求2所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络的奖励r_avoid为：

其中α,β是常数,d_min为最短距离。

6.根据权利要求2所述的基于深度强化学习的无人机导航方法，其特征在于，所述目的地获取网络的奖励r_acquire获取方式，如下所示：

当从正确的方向接近目标时，无人机离目标越远，奖励越小，接近目标的奖励r_approach如下所示：

其中ρ,σ是常数,d_target为目标距离，

为了激励无人机使用最短航路点获取目标，设置负常数奖励ζ以限制其在原地徘徊：

r_step＝ζ (9)

其中r_step为单步惩罚，ζ是负常数，

所述目的地获取网络的奖励r_acquire为：

r_acquire＝r_approach+r_step (10)。