[发明专利]一种基于TMS-PPO算法的肌肉骨骼机器人控制方法有效

申请号：	202210380168.4	申请日：	2022-04-12
公开（公告）号：	CN114939861B	公开（公告）日：	2023-09-15
发明（设计）人：	刘蓉;王家兴;陈亚茹;王永轩	申请（专利权）人：	大连理工大学
主分类号：	B25J9/00	分类号：	B25J9/00;B25J17/02
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	马庆朝
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 tms ppo 算法肌肉骨骼机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于TMS-PPO算法的肌肉骨骼机器人控制方法，其特征在于，包括如下步骤：

S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电，然后经过肌电信号预处理得到肌肉激活；

S2、基于时变肌肉协同元的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS；

S3、基于近端策略优化算法对TMS进行尺度和相位上的调制，完成对肌肉骨骼机器人的运动控制。

2.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法，其特征在于，所述的步骤S1中，

按照表面肌电采集的标准流程，采用Noraxon无线表面肌电装置，采样频率为2kHz，提取常见的上肢后摆运动、前摆运动和屈肘运动相应的TMS，采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活，利用梯度下降算法从三种运动的肌肉激活信号中提取相应的TMS。

3.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法，其特征在于，所述的步骤S2中，

假设肌肉激活信号m(t)由N个TMS通过在尺度和相移上的调制叠加得到，则肌肉激活信号表示为：

其中c_i为第i(i＝1,2,....N)个时变肌肉协同元的尺度调制系数，t代表时间，t_i为第i个TMS的相移，每个时变肌肉协同TMS表示为w_i(t)，由一组具有类高斯时域特性的肌肉激活信号w_ij(t)构成，j(j＝1,2,....M)为肌肉激活通道序号，w_ij(t)表示为：

其中a_ij、μ_ij和分别为w_ij(t)的幅值尺度、期望和方差，给定一个运动时间T上的肌肉激活信号m(t)，则其重构误差E²为：

在时变肌肉协同TMS的时域特性约束下，利用梯度下降算法优化得到c_i,t_i以及a_ij，使重构误差E²最小，最终得到满足迭代条件的一组时变肌肉协同TMS，具体实现如下：

(1)在给定的时变协同元w_i(t)中将c_i，μ_ij，a_ij以及t_i初始化为随机正值，并分别定义c_i，μ_ij的学习率的值；

(2)令μ_ij+t_i＝t_max,j，其中t_max,j∈T，为m_j(t)在一段时间T上取最大值的点；

(3)利用梯度下降算法更新c_i，a_ij，的值：

其中，Δ是指这三个变量在每个迭代过程中的变化，即实现c_i＝Δc_i+c_i；a_ij＝Δa_ij+a_ij；为求导运算，m_j(t)为m(t)中第j个通道的肌肉激活值，μ_c,μ_a,μ_σ分别为c_i，a_ij，的学习率；

(4)在原始肌肉激活信号中移除第i个时变肌肉协同TMS，生成新的m(t)；

(5)重复(1)-(4)并保存每次生成的w_i(t)，直到拟合优度R²＞0.9，其计算公式如下：

其中SST为离差平方和，SSE为残差平方和，为时变肌肉协同元重构的第j个通道的肌肉激活值，m_j(t)为原始肌肉激活在第j个通道的激活值，为j个通道的肌肉激活的均值。

4.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法，其特征在于，所述的步骤S3中，

PPO算法通过策略网络和值函数网络，经过一个蒙特卡洛过程生成相应的累积奖励J(θ)，进而得到相应的策略网络损失即L₁以及值函数网络损失L₂：

其中π_θ'为在策略网络参数为θ'的条件下，肌肉骨骼机器人在状态下选择动作的相应策略，p_θ(a_tⁿ|s_tⁿ)为上述事件发生的概率，p_θ'(a_tⁿ|s_tⁿ)为在策略网络参数为θ'的条件下，肌肉骨骼机器人在状态下选择动作的概率，n为蒙特卡罗过程的序号，ω为当前值函数网络参数，即表示在值函数网络参数为ω的条件下，为输入时，值函数网络的输出大小，为输入值函数网络时，输出的大小，r_t为当前智能体与环境交互的奖励，γ为值函数网络在下一个状态输出值的先验学习率，是在策略网络参数为θ'的条件下，对含有的相关变量进行取期望运算；

最终得到总损失L＝α₁L₁+α₂L₂，再通过梯度下降实现整体的网络参数更新；

其次，对加以限制，以满足新旧策略不能差距过大的条件，其中α₁，α₂，ε为超参数；

TMS-PPO将TMS引至PPO算法的学习中，通过策略网络生成N个TMS的尺度调制系数c_i和相移调制系数t_i，进而对TMS进行调制，最终生成适当的肌肉激活模式m(t)；

在TMS-PPO方法下的学习奖励值r_M：

r_M＝r_g+β_cr_c+r_o

其中r_g为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励；r_c为肌肉能量效率奖励值，β_c为r_c的折扣因子，是肌肉激活信号m(t)的F范数；r_o为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态，上述参数具体计算方法如下：

r_c＝-||m(t)||_F

其中，θ_1,t表示在肌肉骨骼机器人步数为t时的肩关节角度，θ_2,t为表示在肌肉骨骼机器人步数为t时的提携角角度，θ_1,goal为肩关节学习的目标角度，θ_2,goal为提携角学习的目标角度，s_t为当前时刻手臂的状态，s_goal为目标状态，s_t＝Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励，当s_t＝s_goal时即完成目标时给予一个极大奖励。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210380168.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于TMS-PPO算法的肌肉骨骼机器人控制方法有效

专利文献下载