[发明专利]不确定环境接触下的可重构机器人分散学习最优控制方法有效
申请号: | 201711017777.9 | 申请日: | 2017-10-26 |
公开(公告)号: | CN107544261B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 董博;王梓旭;周帆;李岩;刘克平;李元春 | 申请(专利权)人: | 长春工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京中理通专利代理事务所(普通合伙) 11633 | 代理人: | 刘慧宇 |
地址: | 130012 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不确定 环境 接触 可重构 机器人 分散 学习 最优 控制 方法 | ||
1.不确定环境接触下的可重构机器人分散学习最优控制方法,其特征是,首先建立可重构机器人系统动力学模型,通过对可重构机器人关节子系统间的耦合力矩交联项的分析,然后构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性;
该方法包括以下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τfi是关节输出转矩,τi是电机输出转矩;
定义系统的状态向量控制输入ui=τi;
则子系统的状态空间的形式可以表示为:
上式中,Bi=(Imiγi)-1,代表已建模的动力学模型部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项,x是关节的位置向量,是关节的速度向量,是关节的加速度向量;
步骤二,考虑式(11),构建代价函数如下:
其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,xid与分别是第i个关节的期望位置和速度,αei为确定常数,为效用函数,和是确定的正常数矩阵,Di∈R+为已知的上界函数;
构建哈密顿方程和最优代价函数如下:
其中,是第i个关节期望的加速度,为代价函数Ji(si)的梯度;
在最优控制设计下,满足如下HJB方程:
令满足式(16)的分散最优控制律定义为如下形式:
其中,ui1是反馈控制律,是最优补偿控制律;
处理式(11)中的和和将(16)式的HJB方程改写成:
接下来,定义反馈控制律ui1为
其中,ui1是利用第i个关节模块的已知局部信息设计,设计分散最优控制的律的问题可以转化为找到一个最优补偿控制律来处理可重构机器人系统的不确定项;分别为给定的摩擦参数的估计值,τfi为柔轮转矩。
步骤三,通过神经网络来近似代价函数Ji(si),定义如下:
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
▽Ji(si)=(▽σci(si))TWci+▽εci (21);
将式(21)带入式(18)可得:
理想权值Wci是未知的,用近似权值来建立一个评价神经网络去估计代价函数:
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
其中,ui2是补偿控制律,ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为权值估计误差为结合式(24)与式(26),可以得到一个用表示eci的方程为:
训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,αci>0表示评价神经网络的学习速率;
推导出神经网络权值的动态误差,引入下式:
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示:
在实现在线策略迭代算法来对策略进行改进时,得到了近似最优控制律如下所示:
结合式(19)与(31),得到本发明的分散学习最优控制律为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工业大学,未经长春工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711017777.9/1.html,转载请声明来源钻瓜专利网。