[发明专利]一种基于强化学习的移动机械臂的协同控制方法有效
申请号: | 202111192766.0 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113829351B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 蒙艳玫;张婷婷;武豪;许恩永;韦锦;张长水;董振;唐治宏;李正强 | 申请(专利权)人: | 广西大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J18/00 |
代理公司: | 广西汇佳知识产权代理事务所(普通合伙) 45125 | 代理人: | 李秋琦 |
地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 移动 机械 协同 控制 方法 | ||
1.一种基于强化学习的移动机械臂的协同控制方法,所述的移动机械臂包括移动平台和固定在移动平台上的机械臂,其特征在于,所述协同控制方法包括以下步骤:
步骤一,车臂协同的马尔科夫决策过程建模:基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程模型,以移动平台的速度控制模块作为智能体Agent,通过强化学习与环境进行交互训练,从动作空间中选择合适的决策值来控制移动平台的速度,同时基于奖赏函数来对t时刻的决策行为进行评价,调整出最优的策略并并且获得最高的奖赏值;
步骤二,模型训练:基于深度确定性策略梯度算法,输出连续的动作决策值,控制移动平台的移动速度;通过训练后,协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度,得到移动平台的速度决策值;
步骤三,车臂协同控制:基于移动平台的实时位姿和机械臂末端的下一个目标位置点,对机械臂进行逆运动学求解,获得各个关节的角度,控制电机使各个关节移动至目标位置;基于深度确定性策略梯度强化学习算法,得到移动平台的速度和转向决策值,控制移动平台的速度,并基于纯跟踪算法控制移动平台的转向,从而实现移动平台在低速工况下能够跟踪预定路径移动,使移动平台在每一时刻所处的位置,都能够满足机械臂末端目标轨迹点的要求;
其中,步骤二中的深度确定性策略梯度算法由两部分组成:一部分是策略网络,负责拟合策略函数,基于当前的状态St,输出动作的决策值At;另一部分是评价网络,负责对动作决策的优劣程度进行评价;在训练的过程中,对策略网络和评价网络的参数分别更新;
其中,步骤二的深度确定性策略梯度算法为:
(1)将奖赏之和的目标函数设为J(θμ),J(θμ)=Eθ'[r1+γr2+γ2r3+…];其中γ为衰减因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值;
(2)根据随机梯度下降的方法,对目标函数进行优化,使目标函数关于θμ的梯度与Q值函数关于θμ的期望梯度是等价的,表示为:
(3)由确定性策略a=π(s|θμ)可得:
在此基础上,策略网络的更新过程表示为:
其中,μ是行为策略函数;α为学习效率;θQ表示Q网络中的参数,s指当前时刻的状态,Q(s,a|θQ)表示使用策略μ在s状态选取动作所获得的奖赏期望值;π(s|θ)是一个概率分布函数;是t时刻产生确定性动作的策略网络的参数;
(4)通过DQN中值网络的方法来更新评价网络:
其中,和分别表示目标策略网络和目标值网络的参数;
(5)深度确定性策略梯度算法基于经验回放基质从样本池中获取训练样本,并将动作的梯度信息从评价网络传递给策略网络,根据步骤(3)的公式朝着提升Q值的方向更新策略网络的参数,更新方法为:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
其中,τ为更新率,且值远小于1。
2.按照权利要求1所述的协同控制方法,其特征在于:步骤一的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ);其中状态集S为机械臂末端的状态和移动平台的前轮角度集合;动作集A为移动平台可实现的加速度集合;P为状态转移概率,P:S×A×S→(0,1);R为奖赏函数;γ为用来计算累计奖赏的折扣因子,γ∈(0,1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192766.0/1.html,转载请声明来源钻瓜专利网。