[发明专利]基于强化学习的空间机器人捕获翻滚目标运动规划方法在审
申请号: | 201811611279.1 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109760046A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王明明;弓铎;罗建军;袁建平;朱战霞 | 申请(专利权)人: | 西北工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,包括设计了用以学习训练的智能体状态与动作具体形式,与到达任务的奖励函数;基于优先回放的DDPG算法改进;应用改进的DDPG算法进行抓捕任务的训练过程。本发明的有益效果是,不再需要对空间机器人与非合作环境进行精确建模,仅在观测特定状态的情况下进行智能算法的学习训练,即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声,使得机器人可以智能、自主地抓捕目标。 | ||
搜索关键词: | 空间机器人 目标运动 强化学习 学习训练 捕获 翻滚 非合作目标 观测噪声 合作环境 算法改进 训练过程 运动规划 智能算法 智能体 回放 建模 与非 算法 机器人 观测 规划 智能 奖励 应用 改进 学习 | ||
【主权项】:
1.一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于步骤如下:步骤1、设计智能体状态与动作具体形式,设计奖励函数:动作具体形式:
其中:τn为各关节的控制输入;智能体的状态量为:
其中:机械臂末端与目标的相对位置
关节控制输入直接影响的是各关节的位置与速度
由于空间机器人基座自由漂浮,其位置与姿态
连续的奖励函数设置:r=‑||pe‑pt||‑||τ||2;步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程:以初始状态为s0,以DDPG决策器的初始参数为θ0,在该策略参数下输出动作
空间机器人采取该动作并记录下一刻动作st+1与当前奖励值Rt,存入记忆库并标记其优先级;进行一段时间的数据收集后,根据优先回放概率抽取记忆用以神经网络的训练;计算DDPG的策略梯度:
根据公式进行神经网络权重参数的更新,不断重复上述过程,直至训练收敛,最终收敛的网络权重参数即对应着最优策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811611279.1/,转载请声明来源钻瓜专利网。