[发明专利]一种基于深度强化学习的冗余机械臂可操作度优化方法及装置有效
申请号: | 202210272600.8 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114800488B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 梁斌;王学谦;杨皓强;孟得山 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 冗余 机械 可操作 优化 方法 装置 | ||
1.一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括如下步骤:
S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
其中,将可操作度加入到奖励函数中进行强化学习训练,式(3-10)是一种可行的奖励:
其中,Rt+1为奖励,dt+1为机械臂末端位置与目标点的欧氏距离,kw1是可调整的超参数,wt+1为可操作度;
S4、用优化后的算法对冗余机械臂进行控制。
2.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,步骤S1中所述固定复位是机械臂处于水平伸直状态。
3.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛;其中,使用TD3算法训练和测试时仅限于kw1∈[0,10-1]。
4.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务;所述机械臂的运动过程可视为马尔可夫决策过程;马尔可夫决策过程可以由一个六元组ρ0,γ表示,为状态空间、为动作空间、为奖励空间、为状态转移概率空间、ρ0为初始状态分布、γ为折扣因子。
5.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,所述步骤S1中,每次回合开始,机械臂处于水平伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。
6.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,对输入状态和输出动作的值范围都进行对称处理,保证它们都具备的对称分布特点。
7.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。
8.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,将折扣因子γ取值取0,以消除下一步动作价值Q(s,a)的干扰;其中,所述下一步动作价值Q(s,a)体现在下一步状态St+1时下一时刻动作At+1的价值。
9.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,取kw1的值使得kw1/wt+1与dt+1的数量级相近,从而在训练中兼顾末端接近任务和增大可操作度任务,其中kw1是可调整的超参数,dt+1为机械臂末端位置与目标点的欧氏距离,下标t代表t时刻的状态变量,下标t+1代表t+1时刻的状态变量。
10.一种冗余机械臂控制装置,其特征在于,包括:包括至少一个存储器以及至少一个处理器;
所述存储器,包括存储于其中的至少一个可执行程序;
所述可执行程序在由所述处理器执行时,实现如权利要求1至9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210272600.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于合金制品生产的打磨装置
- 下一篇:一种人脑受电磁辐射的高精度计算方法