[发明专利]一种模型增强的无人机飞行轨迹强化学习优化方法在审
申请号: | 202210604906.9 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114879738A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王莉;甯彦淞;时赞杰;刘伊敏;朱治锟 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 孟肖阳;冷锦超 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 增强 无人机 飞行 轨迹 强化 学习 优化 方法 | ||
1.一种模型增强的无人机飞行轨迹强化学习优化方法,其特征在于:包括如下步骤:
步骤1,在三维空间向量场中构建无人机飞行仿真场景包括:飞行障碍物;障碍物位置;无人机的出发点以及终点;
步骤2,基于Markov决策过程建立环境模型,包括飞行环境E、状态空间S、动作空间A、奖励函数R,状态转移概率P;
步骤3,基于EGO-Planner算法建立EGO-Planner飞行避障模型,包括飞行环境E,避障飞行轨迹Φ、避障飞行距离d,避障所用时间T;
步骤4,无人机在EGO-Planner飞行避障模型下,基于状态和策略选择动作,在飞行的同时与环境进行交互,得到下一时刻的状态和当前奖励值,并存入经验缓存池;
步骤5,利用神经网络对从环境中采样得到的样本的状态-动作进行编码,再利用SAC算法对样本进行训练学习,更新神经网络参数;
步骤6,选取样本中状态下各动作的奖励值最高的作为最优动作,进而得到最优策略。
2.根据权利要求1所述的一种模型增强的无人机飞行轨迹强化学习优化方法,其特征在于:所述步骤2中基于Markov决策过程建立环境模型,包括飞行环境E、状态空间S、动作空间A、奖励函数R,状态转移概率P,具体为:
建立的飞行环境E包括无人机仿真场景中的飞行任务点的三维坐标集合{M0,M1,…,Mn}、障碍物点的三维坐标集合{O0,O1,…,Ok};
M0,M1和Mn分别是飞行任务点0、1和n的三维坐标向量,O0,O1和Ok分别是障碍物点0、1和k的三维坐标向量;
状态空间S包括无人机当前位置的坐标信息l、当无人机采用EGO-Planner飞行避障模型避开障碍物后从当前飞行任务点到下一个飞行任务点的飞行距离d、无人机的飞行速度v,记为S=(l,d,v);
动作空间A包括无人机采用EGO-Planner飞行避障模型避开障碍物后飞行轨迹的变化和飞行速度的变化;
奖励函数R为:
式中,di-1,i是两个飞行任务点之间飞行距离,Ti是从上一个飞行任务点到第i个飞行任务点所用的时间,R是无人机从出发点出发遍历每一个任务点后到达终点的奖励值,它由无人机飞行总时间的负对数进行描述,s.t Ti是飞行时间的限制条件;
状态转移概率为P,它表示无人机在状态s下执行动作后,从状态s转移到状态s'的概率。
3.根据权利要求1所述的一种模型增强的无人机飞行轨迹强化学习优化方法,其特征在于:所述步骤3中基于EGO-Planner算法建立EGO-Planner飞行避障模型,包括飞行环境E、避障飞行轨迹Φ、避障飞行距离d、避障时间T,具体为:
建立的飞行环境E包括无人机仿真场景中的飞行任务点的三维坐标集合{M0,M1,…,Mn}、障碍物点的三维坐标集合{O0,O1,…,Ok};
避障飞行轨迹Φ包括采用EGO-Planner避障算法生成的从当前飞行任务点到下一飞行任务点的无碰撞飞行轨迹集合{Φ1,Φ2,L},Φ1为第一个飞行轨迹点,Φ2为第二个飞行轨迹点;
避障飞行距离d,表示无人机采用EGO-Planner飞行避障模型避开障碍物后从当前飞行任务点到下一个飞行任务点的飞行距离;
避障所用时间T,表示从上一个飞行任务点到第i个飞行任务点所用的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210604906.9/1.html,转载请声明来源钻瓜专利网。