[发明专利]一种模型增强的无人机飞行轨迹强化学习优化方法在审

申请号：	202210604906.9	申请日：	2022-05-30
公开（公告）号：	CN114879738A	公开（公告）日：	2022-08-09
发明（设计）人：	王莉;甯彦淞;时赞杰;刘伊敏;朱治锟	申请（专利权）人：	太原理工大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	太原高欣科创专利代理事务所(普通合伙) 14109	代理人：	孟肖阳;冷锦超
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型增强无人机飞行轨迹强化学习优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种模型增强的无人机飞行轨迹强化学习优化方法，属于机器学习技术领域；所要解决的技术问题为：提供一种模型增强的无人机飞行轨迹强化学习优化方法的改进；解决上述技术问题采用的技术方案为：包括如下步骤：在三维空间向量场中构建无人机飞行仿真场景；基于Markov决策过程建立环境模型；基于EGO‑Planner算法建立EGO‑Planner飞行避障模型；无人机在EGO‑Planner飞行避障模型下，基于状态和策略选择动作，在飞行的同时与环境进行交互，得到下一时刻的状态和当前奖励值；利用神经网络对从环境中采样得到的样本的状态‑动作进行编码，再利用SAC算法对样本进行训练学习，更新神经网络参数；选取样本中状态下各动作的奖励值最高的作为最优动作；本发明应用于无人机。

技术领域

本发明提供了一种模型增强的无人机飞行轨迹强化学习优化方法，属于机器学习技术领域。

背景技术

无人机在农业、勘探、救灾、公共安全、娱乐、未来战争等多种领域具有广泛应用，在多种复杂场景中都需要无人机能够自主高效地完成飞行任务。因此，找到一种既能保证无人机无障碍飞行，同时尽可能地减小无人机飞行开销的方法可以极大程度的提升飞行效率。目前，传统的基于B样条曲线和梯度的避障算法已经十分成熟，但此类避障算法在飞行前需要构建一个全局欧几里德向量场，这往往会占用大量飞行时间。然而，在现实的无人机飞行任务中，往往需要无人机能基于局部环境实时避障且尽可能地实现高效率飞行。

EGO-Planner是一种基于局部欧几里得向量场的无人机飞行避障算法，它能实时感知飞行环境，同时快速做出飞行决策。强化学习算法是一种不断与环境进行交互来学习策略的算法。在无人机飞行规划中，常常将无人机的飞行状态和动作编码到神经网络中，利用计算得到的奖励值来训练优化飞行时间。

这些算法存在的主要问题有：EGO-Planner算法由于控制算法限制条件过多，常常陷入局部最优解，无法保证无人机的避障飞行。单一的强化学习算法需要借助神经网络进行学习，训练过程往往不稳定，鲁棒性差。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种模型增强的无人机飞行轨迹强化学习优化方法的改进。

为了解决上述技术问题，本发明采用的技术方案为：一种模型增强的无人机飞行轨迹强化学习优化方法，包括如下步骤：

步骤1，在三维空间向量场中构建无人机飞行仿真场景包括：飞行障碍物；障碍物位置；无人机的出发点以及终点；

步骤2，基于Markov决策过程建立环境模型，包括飞行环境E、状态空间S、动作空间A、奖励函数R，状态转移概率P；

步骤3，基于EGO-Planner算法建立EGO-Planner飞行避障模型，包括飞行环境E，避障飞行轨迹Φ、避障飞行距离d，避障所用时间T；

步骤4，无人机在EGO-Planner飞行避障模型下，基于状态和策略选择动作，在飞行的同时与环境进行交互，得到下一时刻的状态和当前奖励值，并存入经验缓存池；

步骤5，利用神经网络对从环境中采样得到的样本的状态-动作进行编码，再利用SAC算法对样本进行训练学习，更新神经网络参数；

步骤6，选取样本中状态下各动作的奖励值最高的作为最优动作，进而得到最优策略。

所述步骤2中基于Markov决策过程建立环境模型，包括飞行环境E、状态空间S、动作空间A、奖励函数R，状态转移概率P，具体为：