[发明专利]一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法在审
申请号: | 202210687553.3 | 申请日: | 2022-06-17 |
公开(公告)号: | CN114967472A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 吴吉莹;杨忠;廖禄伟;何乃峰;王志永;王灿 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 徐红梅 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 轨迹 跟踪 状态 补偿 深度 确定性 策略 梯度 控制 方法 | ||
本发明公开了一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法,采用深度确定性策略梯度算法,网络结构包括控制网络、评价网络和补偿网络,将控制网络的控制量输出与补偿网络的补偿输出相结合作为输出控制量与环境交互,评价网络对输出控制量进行价值评价,使无人机能够以最精确、连续、平滑的方式快速跟踪动态目标;在生成控制量的基础上加入随机噪声,实现一定范围的探索,使控制量值估计更加准确。本发明针对基于深度强化学习的无人机轨迹跟踪控制算法在未知环境下训练效率低,收敛性不稳定的情况,提出了一种结合状态补偿网络的状态补偿深度确定性策略梯度算法,能够显著提高无人机在轨迹跟踪任务中的训练效率和收敛性稳定性。
技术领域
本发明涉及机器人轨迹跟踪技术,特别是涉及一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法。
背景技术
对于移动机器人来说,轨迹跟随与时间序列有关,在规定的时间内通过轨迹跟随系统的控制到达原本设定的位置上,因此,具有高性能的轨迹跟随能力的控制器是移动机器人所需要的。设计移动机器人的控制器是富有挑战性的,动力学模型的不确定性、强大的环境扰动、模型的欠驱动性、运动学上的不完全约束,这些是设计者在设计移动机器人轨迹跟随控制器时必须要处理的问题;其复杂的传感器套件和多层软件会给信息传递带来噪音和延迟,而传统的控制理论往往不足以有效地解决这些问题;专门的控制方法开发来解决这个复杂的问题,通常需要一个漫长的设计过程和艰巨的参数调整。基于学习的机器人控制方法是控制领域的最新研究热点,它忽略机器人的动力学模型,通过大量运动数据进行控制方法学习,目前在自动控制领域已经受到了广泛的关注。
在不了解环境动力学模型的情况下,无模型强化学习算法可以直接评估策略的质量,或者通过个体与环境的实际互动找到最优值函数和最优策略。国际上对这一问题从理论到实验进行了大量的研究,在理论分析、数值计算和实验验证等方面都取得了丰硕的成果。其中,基于价值的深度强化学习算法,如Q-learning、Sarsa和深度Q-learning算法(DQN)只能实现对离散控制量空间的控制,因此只能实现对机器人的离散方向控制。然而,在大规模控制量空间或连续控制量的情况下,基于价值的强化学习很难获得好的结果。对于轨迹跟踪,基于价值的控制方法仅使用离散的控制量空间很难实现精确跟踪,在这种情况下,可以直接进行策略学习。
发明内容
发明目的:本发明的目的是提供一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法,该方法采用深度强化学习,融合不同状态空间网络的状态补偿深度确定性策略梯度算法,可显著提高训练效率、收敛稳定性。
技术方案:本发明的一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法,包括以下步骤:
S1、建立无人机动态跟踪的马尔可夫决策过程元组S,A,P,R,γ,S是有限状态集,A是有限控制量集,P是基于控制量的状态转移概率矩阵,R是基于状态和控制量的奖励函数,γ为衰减因子;
S2、建立无人机动态跟踪的运动状态方程;
S3、分别构建第一控制网络、第一评价网路、第一补偿网络以及对应的具有相同网络结构的第二控制网络、第二评价网络、第二补偿网络;
S4、执行各网络,获得状态转移过程,并将所有状态转移过程存入经验回放池;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210687553.3/2.html,转载请声明来源钻瓜专利网。