[发明专利]基于深度强化学习的人机协作流水线系统有效
申请号: | 202110490382.0 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113341706B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 刘华山;应丰糠;江荣鑫;李威豪;黄家淬;尹欣;尹钰然;吴琼宇;曾嘉禹;王慧颖;李婷玉;万卷;李祥健;夏玮;蔡明军;程新;陈霖;吴恩保 | 申请(专利权)人: | 东华大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 人机 协作 流水线 系统 | ||
1.一种基于深度强化学习的人机协作流水线系统,其特征在于,采用以下步骤搭建:
步骤一:搭建数字化流水线系统训练算法,采用搭建的数字化系统来获取数据集,数字化系统与实际流水线系统采取1:1还原;
步骤二:搭建基于神经网络的意图预测模型;
在数字化系统中,人类协作者接触机器人的机械臂,在其末端施加一个随时间t变化的交互力f(t),机械臂上的力传感器根据检测到的外力,产生机械臂各个关节的控制输入来驱动末端执行器抵达目标位置,机械臂运动学定义如下式(1)所示:
式(1)中,x(t)、及分别表示笛卡尔空间机械臂末端的位置、速度、加速度;q=q(t)、分别表示关节空间下各关节的位置、速度、加速度;J(q)为雅可比矩阵;表示雅可比矩阵的一阶微分;ψ(q)表示机械臂正运动学模型;
机械臂在关节空间下的动力学模型描述为下式(2):
式(2)中,M(q)表示对称正定惯性矩阵;G(q)表示重力;τ表示控制输入的向量;机器人学中,整体表示科氏力和离心力;
人机交互发生在末端执行器附近,将式(1)代入式(2),得到机械臂在笛卡尔空间下的动力学模型如下式(3)所示:
式(3)中:
采用阻抗控制模式,通过检测人施加的外力,使得机械臂的控制顺应人施加的外力,则机械臂动力学受如式(5)所示的目标阻抗模型支配:
式(5)中,Md、Cd、Gd分别表示期望的惯性、阻尼、刚性矩阵;xd表示期望位置;表示期望速度;表示期望加速度;f表示交互力;x表示实际位置;表示实际速度;表示实际加速度;
根据式(5)所示的阻抗模型,机械臂实际位置x将根据交互力f得到改善;根据人类伙伴动作意图的预测来设计xd提供自适应控制模式,使得机械臂动力学受式(5)描述的阻抗模型控制,并且不受未知的机械臂动力学影响;
构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动作意图,如下式(6)所示:
式(6)中,CH、GH分别表示人类肢体的阻尼矩阵和弹簧矩阵,为对角矩阵;xHd为人类伙伴中枢神经系统规划的轨迹中的坐标点,将其视为人类伙伴的动作意图;
于是,人类动作意图xHd由交互力f、实际位置x和实际速度预测,表示为式(7):
采用递归径向基函数神经网络预测人类动作意图xHd;
通过递归径向基函数神经网络,某时刻人类伙伴的动作意图xHd,p及其预测分别表示为:
式(8)中,p表示输出矩阵Y(t)的第p个元素;为递归径向基函数神经网络的第i个输入,fi为第i个输入中的交互力,xi为第i个输入中的实际位置x,为第i个输入中的实际速度;ε是预测误差;是理想权重wj的预测值;θj(ri)是输入为ri时的第j个隐含层的输出;
采用反向传播算法获取控制目标是使得机械臂主动地朝人类伙伴预期的位置移动,从而使得交互力f尽可能的小;
将作为目标阻抗模型中的期望位置代替xd,则阻抗控制将部分考虑到动作意图的预测,通过在线调整的值,有效降低人类伙伴消耗的能量;
步骤三:采用DDPG算法优化,由基于动作意图预测的自适应阻抗控制器生成任务轨迹;
DDPG网络采用了Actor-Critic形式,将基于动作意图预测的自适应阻抗控制器中的递归径向基函数神经网络作为DDPG算法的行动者网络;DDPG算法的训练基于离策略时序差分学习技术,对于每一个时间步t,机器人智能体从当前环境状态st通过选择的行为at与环境交互,测量出新的状态st+1,并且计算出奖励值rt+1;将(st,at,rt+1,st+1)这四个元素存储在回放缓存D中,经采样后用于训练参数化行动者网络πθ和评估网络同时,在动作的决策机制中引入Ornstein-Uhlenbeck随机噪声使得agent可以更好地探索环境;
行动者网络的学习目标函数L(θ)定义如下式(9)所示:
式(9)中,s表示从缓存D采样的状态;πθ(s)表示自适应阻抗控制器的每一个动作;表示在线评估网络;E[·]表示期望;θ表示在线行动者网络的网络参数;
式(9)中,对于从缓存D采样的状态s,函数L(θ)使得自适应阻抗控制器的每一个动作πθ(s)的期望E最大化;行动者网络的学习目标取决于评估网络的Q值估算,评估网络能估算精确的Q值;
在本套流水线系统中,机械臂的动作取决于与人类伙伴的交互力f,采用如下式(10)定义的奖励函数:
r=fTΛff+ci (10)
式(10)中,f=[fx,fy,fz]T,fx、fy、fz是力传感器测得的相对于X轴、Y轴、Z轴的接触力;Λf是对角元素为λfx、λfy、λfz的3×3对角矩阵,对角元素λfx、λfy、λfz分别是与X轴、Y轴、Z轴的接触力关联的权重;常数ci应设为一个足够大的正值,使得对于负值的Λf,奖励r能保证是正的;
步骤四:将基于递归径向基函数神经网络搭建的具备意图推理能力的轨迹规划器作为DDPG算法的行动者网络,其输入为当前位置x、速度和力传感器测得的交互力f,由递归径向基函数神经网络预测人类伙伴的动作意图,输出由x、f作为阻抗控制器的输入控制机械臂运动;同时,机械臂当前的状态信息经DDPG算法反馈实现任务轨迹的优化;
步骤五:基于深度图生成不同待抓取物体的抓取位姿;
由SSD网络识别物体,SSD网络以VGG-16作为基础网络模型,将其后两层全连接层替换为卷积层;对每一层特征图采用3×3的卷积核计算每一个单元,其层数越深,感受野越大;
由于摄像机近景平面和远景平面之间的点的深度值被归一化到0~1范围内,造成高度不够的物体的深度值与背景较接近,难以区分;因此,选取工作台工作区域外一点,通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出高度值,将所有摄像机近景平面和远景平面之间的点的高度值减去该求出的高度值,并将摄像机近景平面和远景平面之间的点的深度值转换到0~255之间;
将采集图像分为m×n个方形区域,对每个区域随机采用一个点并将落在物体上的点选为一个抓取中心点,从而使得抓取点能覆盖整个物体;采用Sobel边缘算子计算像素点[i,j]沿X轴方向的梯度及沿Y轴方向的梯度
式(11)中,fi,j表示像素点[i,j]的灰度值;
默认夹爪始终以竖直向下的方式抓取物体,则抓取动作取决于抓取点位置(x,y,z)及沿Z轴的转角θ,假设手爪接触面与物体边缘相切时为一个待定抓取姿态,则保留满足以下条件的边缘点:
Δθ<ε或|Δθ-180°|<ε (12)
式中(12)中,Δθ=|θn-θl|,θn为法线方向,取0~2π,θl为随机点和某边缘点连线的方向,取0~2π;
选取了几个待定抓取姿态,最后将待定抓取姿态进行融合;将所有抓取方向转换到0°~120°方向,将0°~120°区间n等分,计算每个区间抓取方向的角度平均值,将平均值小于60°/n的两个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110490382.0/1.html,转载请声明来源钻瓜专利网。