[发明专利]基于强化学习的空间机器人捕获翻滚目标运动规划方法在审
申请号: | 201811611279.1 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109760046A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王明明;弓铎;罗建军;袁建平;朱战霞 | 申请(专利权)人: | 西北工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 空间机器人 目标运动 强化学习 学习训练 捕获 翻滚 非合作目标 观测噪声 合作环境 算法改进 训练过程 运动规划 智能算法 智能体 回放 建模 与非 算法 机器人 观测 规划 智能 奖励 应用 改进 学习 | ||
1.一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于步骤如下:
步骤1、设计智能体状态与动作具体形式,设计奖励函数:
动作具体形式:
其中:τn为各关节的控制输入;
智能体的状态量为:
其中:机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮,其位置与姿态
连续的奖励函数设置:r=-||pe-pt||-||τ||2;
步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程:
以初始状态为s0,以DDPG决策器的初始参数为θ0,在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作st+1与当前奖励值Rt,存入记忆库并标记其优先级;进行一段时间的数据收集后,根据优先回放概率抽取记忆用以神经网络的训练;计算DDPG的策略梯度:
根据公式进行神经网络权重参数的更新,不断重复上述过程,直至训练收敛,最终收敛的网络权重参数即对应着最优策略。
2.根据权利要求1所述基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于:所述步骤2计算DDPG的策略梯度的计算过程:记忆库大小为N,抽取记忆数量k,每一幕实验步数T:
0:初始化网络参数,初始化记忆库
1:for t=1 to T,do:
2:执行策略,记录记忆数据<st,at,rt,st+1>,记忆库数据容量n=n+1;
3:记录其被抽取概率
4:if n>N,do:
5:for j=1 to K,do:
6:根据概率抽取记忆
7:计算权重参数
8:更新TD误差
9:更新其对应的抽取概率pj←δj
10:end for.
11:end if.
12:end for.。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811611279.1/1.html,转载请声明来源钻瓜专利网。