[发明专利]一种模型增强的无人机飞行轨迹强化学习优化方法在审
申请号: | 202210604906.9 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114879738A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王莉;甯彦淞;时赞杰;刘伊敏;朱治锟 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 孟肖阳;冷锦超 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 增强 无人机 飞行 轨迹 强化 学习 优化 方法 | ||
本发明提供了一种模型增强的无人机飞行轨迹强化学习优化方法,属于机器学习技术领域;所要解决的技术问题为:提供一种模型增强的无人机飞行轨迹强化学习优化方法的改进;解决上述技术问题采用的技术方案为:包括如下步骤:在三维空间向量场中构建无人机飞行仿真场景;基于Markov决策过程建立环境模型;基于EGO‑Planner算法建立EGO‑Planner飞行避障模型;无人机在EGO‑Planner飞行避障模型下,基于状态和策略选择动作,在飞行的同时与环境进行交互,得到下一时刻的状态和当前奖励值;利用神经网络对从环境中采样得到的样本的状态‑动作进行编码,再利用SAC算法对样本进行训练学习,更新神经网络参数;选取样本中状态下各动作的奖励值最高的作为最优动作;本发明应用于无人机。
技术领域
本发明提供了一种模型增强的无人机飞行轨迹强化学习优化方法,属于机器学习技术领域。
背景技术
无人机在农业、勘探、救灾、公共安全、娱乐、未来战争等多种领域具有广泛应用,在多种复杂场景中都需要无人机能够自主高效地完成飞行任务。因此,找到一种既能保证无人机无障碍飞行,同时尽可能地减小无人机飞行开销的方法可以极大程度的提升飞行效率。目前,传统的基于B样条曲线和梯度的避障算法已经十分成熟,但此类避障算法在飞行前需要构建一个全局欧几里德向量场,这往往会占用大量飞行时间。然而,在现实的无人机飞行任务中,往往需要无人机能基于局部环境实时避障且尽可能地实现高效率飞行。
EGO-Planner是一种基于局部欧几里得向量场的无人机飞行避障算法,它能实时感知飞行环境,同时快速做出飞行决策。强化学习算法是一种不断与环境进行交互来学习策略的算法。在无人机飞行规划中,常常将无人机的飞行状态和动作编码到神经网络中,利用计算得到的奖励值来训练优化飞行时间。
这些算法存在的主要问题有:EGO-Planner算法由于控制算法限制条件过多,常常陷入局部最优解,无法保证无人机的避障飞行。单一的强化学习算法需要借助神经网络进行学习,训练过程往往不稳定,鲁棒性差。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种模型增强的无人机飞行轨迹强化学习优化方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:一种模型增强的无人机飞行轨迹强化学习优化方法,包括如下步骤:
步骤1,在三维空间向量场中构建无人机飞行仿真场景包括:飞行障碍物;障碍物位置;无人机的出发点以及终点;
步骤2,基于Markov决策过程建立环境模型,包括飞行环境E、状态空间S、动作空间A、奖励函数R,状态转移概率P;
步骤3,基于EGO-Planner算法建立EGO-Planner飞行避障模型,包括飞行环境E,避障飞行轨迹Φ、避障飞行距离d,避障所用时间T;
步骤4,无人机在EGO-Planner飞行避障模型下,基于状态和策略选择动作,在飞行的同时与环境进行交互,得到下一时刻的状态和当前奖励值,并存入经验缓存池;
步骤5,利用神经网络对从环境中采样得到的样本的状态-动作进行编码,再利用SAC算法对样本进行训练学习,更新神经网络参数;
步骤6,选取样本中状态下各动作的奖励值最高的作为最优动作,进而得到最优策略。
所述步骤2中基于Markov决策过程建立环境模型,包括飞行环境E、状态空间S、动作空间A、奖励函数R,状态转移概率P,具体为:
建立的飞行环境E包括无人机仿真场景中的飞行任务点的三维坐标集合{M0,M1,…,Mn}、障碍物点的三维坐标集合{O0,O1,…,Ok};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210604906.9/2.html,转载请声明来源钻瓜专利网。