[发明专利]一种基于强化学习的水下航行器对接控制方法有效
申请号: | 202210638552.X | 申请日: | 2022-06-08 |
公开(公告)号: | CN114721409B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 李沂滨;张天泽;缪旭弘;魏征;尤岳;周广礼;贾磊;庄英豪;宋艳 | 申请(专利权)人: | 山东大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 王楠 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 水下 航行 对接 控制 方法 | ||
本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域,本发明基于深度强化学习中的PPO算法框架,引入新旧策略更新的可靠边界,提升智能体学习的稳定性。同时,采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。在仿真训练方面,本发明构建了考虑海流、海浪干扰的对接训练环境,使用此训练环境进行智能体的学习,大大提升了水下航行器的抗干扰能力。
技术领域
本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域。
背景技术
水下航行器作为特殊的海洋调查设备,已经被大量应用于海底地形测绘、海洋资源勘探、沉船古迹调查、油气管道维护、生命科学监测等诸多海洋工程领域,是人类探索海洋、利用海洋过程中不可或缺的手段。然而,由于要保证水下航行器自身的灵活性并还要携带相应设备,其自身携带的有限能源限制了其长期巡航的能力,定期补充能源是不可避免的。为了避免水下航行器依赖水面舰艇进行能源补充,使其具有全自动的长期运行能力,诸如中国专利文件CN201120224621.X等设计了自主水下航行器对接站作为其能量补充的必要装置。而真实的海洋环境中存在复杂的海流干扰和波浪干扰,发明一种水下航行器抗干扰、高鲁棒性的智能对接控制算法是十分必要的。
成功的对接控制需要航行器在波浪或海流的干扰下,按照智能的策略高成功率地引导、导航和控制自身进入对接站,整个过程如图1所示。但是,到目前为止,对于水下航行器智能对接控制仍然有很多困难点。传统的例如比例积分微分(PID)控制器等线性控制器,对于水下航行器这类具有复杂非线性动力学特性的系统,难以取得良好的控制性能。即便使用现有的非线性控制器,在实际的任务环境中水下航行器动态模型及任务环境模型都难以精确获取,所以也难以获得良好的控制效果。此外,复杂多变的洋流及存在于海面的海浪都会对水下航行器的对接过程带来干扰。所以需要一种可以不依赖于模型且能够进行自学习的智能控制算法来解决上述问题。
机器学习技术近些年的快速发展给水下航行器智能化控制带来更多可能。深度强化学习(DeepReinforcement Learning, DRL)作为一种可以解决无模型马尔可夫决策过程(Markov decision process, MDP)问题的算法框架,能够构建一个与海底任务环境不断交互的水下航行器智能体。基于DRL原理的控制器可以在无环境模型的情况下通过获取来自任务环境反馈的惩罚或奖励,最大化累积折损奖励来最终寻找到完成任务目标的最优策略,如图2所示。
然而,现有深度强化学习的算法存在着一些显著的缺陷,基于Q-学习的算法不适用于诸如水下航习器这类有着连续动作空间的控制对象。传统基于策略梯度的算法不能有效利用从环境中采集的数据,导致收敛速度过慢。在这些深度强化学习算法中,PPO(Proximal Policy Optimization,近端策略优化)算法很好地平衡了数据的利用和环境的探索,非常适合处理高维状态及动作空间中的控制问题。PPO在更新中使用的新旧策略概率之比作为更新裁剪的参考,这实际上不能很好地保持在预先给定的裁剪范围内,这将导致不适当的策略更新幅度,而回滚裁剪机制有助于提高学习能力。而其提出的回滚裁剪机制引入了新的超参数来调节回滚力度,此影响策略更新的超参数依然要凭借人工经验进行设定,这是很不具备普适性的。于是在本发明中,我们提出了一种基于训练进度的自适应回滚裁剪机制,在不设置新的超参数的前提下改进了PPO的策略更新,并基于此机制设计了基于深度强化学习算法的水下航行器对接控制方法。
发明内容
针对现有技术的不足,为了解决水下航行器对接控制问题,本发明基于深度强化学习中的PPO算法框架,提出一种基于自适应可靠边界回滚裁剪强化学习的水下航行器对接控制方法。本方法特点主要在于:1.引入新旧策略更新的可靠边界,提升智能体学习的稳定性。2. 采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638552.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仪表显示控制方法及控制装置
- 下一篇:一种功率型电解液及钠离子电池