[发明专利]基于离线模型预训练学习的DDPG算法的机器人控制方法有效
申请号: | 202011429368.1 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112668235B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 张茜;王洪格;姚中原;戚续博 | 申请(专利权)人: | 中原工学院 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;G06F111/08;G06F111/10 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
地址: | 451191 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 离线 模型 训练 学习 ddpg 算法 机器人 控制 方法 | ||
本发明提出了一种基于离线模型预训练学习的DDPG算法的机器人控制方法,其步骤如下:收集离线环境下2D假人的训练数据,对训练数据进行预处理得到训练数据集;构建并初始化人工神经网络并初始化参数;利用训练数据集离线预训练评估网络和动作网络;利用预训练后的评估网络初始化目标网络,智能体将状态转换数据存入存储缓冲器作为训练在线网络的在线数据集;利用在线数据集训练在线策略网络和在线Q网络,利用DDQN结构更新在线策略网络和在线Q网络;软更新,控制2D假人的状态。本发明效率更高效,产生的Q值更加精确,平均奖励值更高,学习策略更加稳定可靠,提高了收敛速度和获取的累积奖励值达到更高水平,使机器人快速地到达目的地。
技术领域
本发明涉及机器人控制的技术领域,尤其涉及一种基于离线模型预训练学习的DDPG算法的机器人控制方法。
背景技术
强化学习是机器学习的一个重要分支,智能体通过执行某些操作并观察从这些操作中获得的奖励或结果来学习在环境中的行为。主要包含四个元素:智能体、环境状态、行动和奖励。强化学习的目标就是智能体根据环境的正反馈尽可能向正方向执行动作以此学习好的策略,获得最多的累计奖励。
目前,深度强化学习已经在机器人的仿真控制、运动控制、室内室外导航、同步定位等方向产生重要的影响,促使机器人能够在仿真环境甚至现实世界中通过经验和环境交互进行自动学习,以达成回报最大化或实现特定目标。
DDPG(Deep Deterministic Policy Gradient)能够适用于具有连续动作空间和连续状态空间的任务,DDPG算法作为连续动作控制方面的经典算法,训练比较稳定,但其学习过程比较缓慢而且目标Q值一般都是通过贪婪法直接得到的,因此存在Q值高估偏差,当这种累计误差达到一定程度时,会导致次优策略的更新和发散行为,使最终得到的算法模型有很大的偏差。
另外,在线强化学习需要在线地处理环境中每个时刻的状态数据和反馈奖励,施加动作后必须等待环境的下个反馈奖励,因此会造成时间成本代价过高。并且,强化学习在训练初期时,其中的动作网络和评估网络泛化能力较弱,产生大量冗余的试错动作和无效数据,也一定程度上浪费在线的计算资源。
深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,广泛应用于机器人操作任务上,Dylan P.Losey等人提出了全局最优领先的人工蜂群算法用于更新机器人路径轨迹,L.Tai等人实现无模型的避障行为,让移动机器人在不碰撞其他物体的情况下探索未知环境,但由于离散分类导致存在对于决策的连续状态空间不够精确的局限性问题。
Volodymyr Mnih等人提出了深度Q网络(Deep Q Network,DQN)从高维感官输入中获得对环境的有效表示,并利用它们将过去的经验推广到新的情况中,然而对于具有连续和高维的动作空间的物理控制任务,DQN不能直接应用于连续域,因为它依赖于寻找使作用值最大化的值函数,Timothy P等人提出了深度确定性策略梯度DDPG,解决了DQN无法处理大量的连续动作空间和Actor Critic难于收敛的问题,DDPG算法广泛用于解决避障、路径规划等问题,可以在高维的连续动作空间中学习策略。但与大多数无模型强化方法一样,DDPG 算法需要大量的训练来找到解决方案,而且由于样本数据采集受到实时操作的限制,一般来说,基于模型的算法在样本复杂度方面优于无模型学习者。Pieiffer M等人提出一个模型,能够学习避免碰撞的策略,安全地引导机器人通过障碍物环境到达指定的目标,但是模型可能是从完美的模拟数据中训练出来的,存在导航性能的不足。
发明内容
针对现有利用DDPG算法的控制方法在线训练过程中会陷入局部极小值及在最初训练 DDPG网络时会产生大量试错动作和无效数据的技术问题,本发明提出一种基于离线模型预训练学习的DDPG算法的机器人控制方法,从已有的大量离线数据入手,利用已有数据离线训练对象状态模型和价值奖励模型,提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习,减少DDPG在线学习的前期工作量并提升在线学习的品质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中原工学院,未经中原工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011429368.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑废料粉碎装置
- 下一篇:一种医疗器械用线路收纳支架