[发明专利]一种基于深度强化学习的冗余机械臂可操作度优化方法及装置有效
申请号: | 202210272600.8 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114800488B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 梁斌;王学谦;杨皓强;孟得山 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 冗余 机械 可操作 优化 方法 装置 | ||
本发明公开了一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;用优化后的算法对冗余机械臂进行控制。本发明通过首次使用带有可操作度奖励的强化学习方法来训练机械臂,使得机械臂在具备末端轨迹跟踪能力的同时,具备自动优化可操作度的能力,并且具备很好的通用性,能够对各种复杂的机器人结构进行训练。
技术领域
本发明涉及冗余机械臂控制技术领域,具体为一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。
背景技术
冗余机械臂具有多余的空间运动自由度,在空间避障和运动规划方面具有很大的优点,成为机器人研究领域的热点。但是冗余机械臂控制领域中存在一个重要的控制难题,是运动规划中的奇异点问题。冗余机械臂虽然具备很强的灵活性,但是其在实际的运动规划中仍然会遇到奇异臂型的问题,当机械臂靠近奇异状态时,末端很小的位移就会引发机械臂的关节剧烈抖动,从而引发关节损坏、传感器故障的问题。为了解决这一问题,很多学者在机器人运动规划中优化机器人的操作性能评价指标(如可操作度),以保障机器人运动的灵巧性,从而在运动过程中尽可能地远离机器人奇异状态。
在对机器人进行灵巧控制时,通常的做法是基于传统的控制方法,即在规划路径时在关节的零空间中加入可操作度w随角度q的梯度使得规划时臂型尽量地朝着可操作度高的方向运动,但是这样处理会带来很复杂的矩阵求导以及矩阵求逆的运算,不便于实时解算。强化学习属于机器学习的一种,它研究的问题是如何让智能体学习到一种执行策略使得其在环境中能获得最大奖赏。如中国专利CN201710042360.1提出一种冗余度机械臂的可操作度优化的运动规划方法包括:设定冗余度机械臂的可操作度导数最大化的优化运动性能指标,以及与所述运动性能指标相应的约束关系;将所述运动性能指标以及相应的约束关系转化为二次规划问题;通过二次规划求解器对所述二次规划问题进行求解,得到求解结果;根据所述求解结果控制机械臂运动。但是该专利存在如下几个缺点:a)此专利的可操作度优化是基于传统的雅可比矩阵优化,且需要多次迭代计算,这给轨迹规划过程带来很大的时间复杂度,运算速度慢;b)可操作度优化需要针对不同机器人的结构进行数学变换,公式复杂,不便于推广到结构更复杂的机器人上。
发明内容
为了解决现有技术中存在针对轨迹规划过程中优化可操作度的实时性差、运算速度慢以及针对数学变换,公式复杂的技术问题,本发明的目的在于提供一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。
本发明提供了一种基于深度强化学习的冗余机械臂可操作度优化方法,包括如下步骤:
S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
S4、用优化后的算法对冗余机械臂进行控制。
在一些实施例中,步骤S1中所述固定复位是机械臂处于水平伸直状态。
在一些实施例中,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛。
在一些实施例中,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务。
在一些实施例中,所述步骤S1中,每次回合开始,机械臂处于水平伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210272600.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于合金制品生产的打磨装置
- 下一篇:一种人脑受电磁辐射的高精度计算方法