[发明专利]基于深度强化学习的无人机导航方法、装置、设备及介质在审
| 申请号: | 202210422011.3 | 申请日: | 2022-04-21 |
| 公开(公告)号: | CN114910072A | 公开(公告)日: | 2022-08-16 |
| 发明(设计)人: | 吴迪;施之羿;黄梦醒;冯子凯;毋媛媛;冯思玲;周家昊;帅文轩;张宏瑞 | 申请(专利权)人: | 海南大学 |
| 主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N3/04;G06N3/08 |
| 代理公司: | 苏州中合知识产权代理事务所(普通合伙) 32266 | 代理人: | 阮梅 |
| 地址: | 570000 *** | 国省代码: | 海南;46 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 无人机 导航 方法 装置 设备 介质 | ||
1.基于深度强化学习的无人机导航方法,其特征在于,包括如下步骤:
步骤S1,实时获取无人机与环境的交互信息,所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息;
步骤S2,将所述交互信息输入深度强化学习模型中,输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域;
步骤S3,生成最优动作对应的操作指令,并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息,所述反馈信息包括状态、动作、奖励以及下一个状态的序列;
步骤S4,基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数,采用更新了网络参数的深度强化学习模型,重复步骤S1至S3,直至到达目的地。
2.根据权利要求1所述的基于深度强化学习的无人机导航方法,其特征在于,所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络,用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络,以及将所述避障网络和目的地获取网络连接的综合网络,所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。
3.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。
4.根据权利要求3所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。
5.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络的奖励ravoid为:
其中α,β是常数,dmin为最短距离。
6.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述目的地获取网络的奖励racquire获取方式,如下所示:
当从正确的方向接近目标时,无人机离目标越远,奖励越小,接近目标的奖励rapproach如下所示:
其中ρ,σ是常数,dtarget为目标距离,
为了激励无人机使用最短航路点获取目标,设置负常数奖励ζ以限制其在原地徘徊:
rstep=ζ (9)
其中rstep为单步惩罚,ζ是负常数,
所述目的地获取网络的奖励racquire为:
racquire=rapproach+rstep (10)。
7.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述综合网络的奖励获取方式,如下所示:
其中μ、τ是常数,是通信经验中断概率,st为无人机的状态向量,不同方向的测距仪读数,为无人机基于其周围环境的空旷程度获得的奖励,为无人机基于其测定通信质量的好坏获得的奖励,为综合网络的奖励,鼓励无人机避开障碍物并在空域中导航接近目标同时保证飞行时的通信质量,为无人机与障碍物碰撞受到的惩罚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210422011.3/1.html,转载请声明来源钻瓜专利网。





