[发明专利]一种基于深度强化学习TD3算法的机械臂运动控制方法有效
| 申请号: | 202111211310.4 | 申请日: | 2021-10-18 |
| 公开(公告)号: | CN113843802B | 公开(公告)日: | 2023-09-05 |
| 发明(设计)人: | 廖文和;徐畅;杨海波 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | B25J9/16 | 分类号: | B25J9/16 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 张玲 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 td3 算法 机械 运动 控制 方法 | ||
本发明公开一种基于深度强化学习的机械臂运动控制方法。包括如下步骤:(1):建立机械臂的三维仿真环境;包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境;(2):在采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练,TD3使用两个独立的评论家网络,使用值函数剪裁以及延迟策略更新,训练得到控制策略模型;(3):评估模型的效果。本发明通过加入动作探索噪声和目标网络噪声,平滑动作,有效缩短训练时间,收敛速度大幅度的增强;通过双评论家网络降低过高的估计值,降低误差积累,降低收敛失败的几率。
技术领域
本发明属于机器人控制领域,具体涉及一种基于深度强化学习的机械臂运动控制方法。
背景技术
传统的机械臂控制方法在已知环境、确定环境、结构化场景下可以进行快速、稳定精确的控制任务,但在未知环境、不确定环境、非结构化场景下只能依赖预设的动作形式进行作业,且不具备基本的自主操作功能。同时,现代协作机械臂多为柔性机械臂结构,非线性要素分析复杂困难,需要对关节进行精确建模。随着工业领域对机械臂的性能要求越来越高,需要机械臂完成更多的交互或者复杂动态空间的作业任务,传统的方法便不再适用。
近年来,强化学习方法由于其自主学习的能力,在机械臂控制系统中的应用越来越多,用于代替传统控制算法中的正(逆)运动学结算方法。其中,策略梯度(PolicyGradient)对于连续动作空间的处理有很好的效果,非常适合机械臂环境的使用。文献“Continuous control with deep reinforcement learning”. Lillicrap T P,Hunt JJ,Pritzel A,et al.arXiv preprint arXiv:1509.02971, 2015.”提出了DDPG(DeepDeterministic Policy Gradient)算法,其解决连续状态动作空间问题,同时采用确定性策略策略使得网络收敛性更佳。然而DDPG 算法对于超参数的微调有鲁棒性不足的缺陷,并且带来了高估计的问题,对收敛速度和效果有所影响。
文献“Addressing function approximation error in actor-criticmethods”.Fujimoto S,Hoof H,Meger D.International Conference on MachineLearning.pp.1587-1596,2018”提出了结合Double DQN(Depp Q-network)思想的TD3(TwinDelayed DDPG)算法,其在多数环境下表现比DDPG 算法更佳优秀,但也存在收敛不稳定等问题,不能很好的控制机械臂的运动。
发明内容
本发明的目的在于提供一种基于深度强化学习的机械臂运动控制方法。
实现本发明目的的技术解决方案为:一种基于深度强化学习的机械臂运动控制方法,包括如下步骤:
步骤(1):建立机械臂的三维仿真环境;包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境;
步骤(2):在采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练,TD3使用两个独立的评论家(Critic)网络,并在其基础上使用值函数剪裁以及延迟策略更新,训练得到控制策略模型;
步骤(3):将步骤(2)训练得到的控制策略模型重新传入,评估模型的效果。
进一步的,步骤(1)具体包括如下步骤:
步骤(11):初始化机械臂环境:设定o-xyz坐标系,规定工作空间和状态空间的上下界参数,设置相机位置,调整末端关节初始位置至平行于z轴,方向设置由欧拉角转化的四元数得到;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111211310.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:装配流水线及其钩具
- 下一篇:用于物料分拣的多吸盘可移动机械手及其控制系统





