[发明专利]一种基于TMS-PPO算法的肌肉骨骼机器人控制方法有效
申请号: | 202210380168.4 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114939861B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 刘蓉;王家兴;陈亚茹;王永轩 | 申请(专利权)人: | 大连理工大学 |
主分类号: | B25J9/00 | 分类号: | B25J9/00;B25J17/02 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 马庆朝 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tms ppo 算法 肌肉 骨骼 机器人 控制 方法 | ||
1.一种基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,包括如下步骤:
S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电,然后经过肌电信号预处理得到肌肉激活;
S2、基于时变肌肉协同元的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS;
S3、基于近端策略优化算法对TMS进行尺度和相位上的调制,完成对肌肉骨骼机器人的运动控制。
2.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S1中,
按照表面肌电采集的标准流程,采用Noraxon无线表面肌电装置,采样频率为2kHz,提取常见的上肢后摆运动、前摆运动和屈肘运动相应的TMS,采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活,利用梯度下降算法从三种运动的肌肉激活信号中提取相应的TMS。
3.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S2中,
假设肌肉激活信号m(t)由N个TMS通过在尺度和相移上的调制叠加得到,则肌肉激活信号表示为:
其中ci为第i(i=1,2,....N)个时变肌肉协同元的尺度调制系数,t代表时间,ti为第i个TMS的相移,每个时变肌肉协同TMS表示为wi(t),由一组具有类高斯时域特性的肌肉激活信号wij(t)构成,j(j=1,2,....M)为肌肉激活通道序号,wij(t)表示为:
其中aij、μij和分别为wij(t)的幅值尺度、期望和方差,给定一个运动时间T上的肌肉激活信号m(t),则其重构误差E2为:
在时变肌肉协同TMS的时域特性约束下,利用梯度下降算法优化得到ci,ti以及aij,使重构误差E2最小,最终得到满足迭代条件的一组时变肌肉协同TMS,具体实现如下:
(1)在给定的时变协同元wi(t)中将ci,μij,aij以及ti初始化为随机正值,并分别定义ci,μij的学习率的值;
(2)令μij+ti=tmax,j,其中tmax,j∈T,为mj(t)在一段时间T上取最大值的点;
(3)利用梯度下降算法更新ci,aij,的值:
其中,Δ是指这三个变量在每个迭代过程中的变化,即实现ci=Δci+ci;aij=Δaij+aij;为求导运算,mj(t)为m(t)中第j个通道的肌肉激活值,μc,μa,μσ分别为ci,aij,的学习率;
(4)在原始肌肉激活信号中移除第i个时变肌肉协同TMS,生成新的m(t);
(5)重复(1)-(4)并保存每次生成的wi(t),直到拟合优度R2>0.9,其计算公式如下:
其中SST为离差平方和,SSE为残差平方和,为时变肌肉协同元重构的第j个通道的肌肉激活值,mj(t)为原始肌肉激活在第j个通道的激活值,为j个通道的肌肉激活的均值。
4.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S3中,
PPO算法通过策略网络和值函数网络,经过一个蒙特卡洛过程生成相应的累积奖励J(θ),进而得到相应的策略网络损失即L1以及值函数网络损失L2:
其中πθ'为在策略网络参数为θ'的条件下,肌肉骨骼机器人在状态下选择动作的相应策略,pθ(atn|stn)为上述事件发生的概率,pθ'(atn|stn)为在策略网络参数为θ'的条件下,肌肉骨骼机器人在状态下选择动作的概率,n为蒙特卡罗过程的序号,ω为当前值函数网络参数,即表示在值函数网络参数为ω的条件下,为输入时,值函数网络的输出大小,为输入值函数网络时,输出的大小,rt为当前智能体与环境交互的奖励,γ为值函数网络在下一个状态输出值的先验学习率,是在策略网络参数为θ'的条件下,对含有的相关变量进行取期望运算;
最终得到总损失L=α1L1+α2L2,再通过梯度下降实现整体的网络参数更新;
其次,对加以限制,以满足新旧策略不能差距过大的条件,其中α1,α2,ε为超参数;
TMS-PPO将TMS引至PPO算法的学习中,通过策略网络生成N个TMS的尺度调制系数ci和相移调制系数ti,进而对TMS进行调制,最终生成适当的肌肉激活模式m(t);
在TMS-PPO方法下的学习奖励值rM:
rM=rg+βcrc+ro
其中rg为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励;rc为肌肉能量效率奖励值,βc为rc的折扣因子,是肌肉激活信号m(t)的F范数;ro为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态,上述参数具体计算方法如下:
rc=-||m(t)||F
其中,θ1,t表示在肌肉骨骼机器人步数为t时的肩关节角度,θ2,t为表示在肌肉骨骼机器人步数为t时的提携角角度,θ1,goal为肩关节学习的目标角度,θ2,goal为提携角学习的目标角度,st为当前时刻手臂的状态,sgoal为目标状态,st=Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励,当st=sgoal时即完成目标时给予一个极大奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210380168.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双燃烧区切圆燃烧系统及方法
- 下一篇:对象搜索方法以及装置