[发明专利]基于强化学习的空间机器人捕获翻滚目标运动规划方法在审

申请号：	201811611279.1	申请日：	2018-12-27
公开（公告）号：	CN109760046A	公开（公告）日：	2019-05-17
发明（设计）人：	王明明;弓铎;罗建军;袁建平;朱战霞	申请（专利权）人：	西北工业大学
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	西北工业大学专利中心 61204	代理人：	王鲜凯
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，包括设计了用以学习训练的智能体状态与动作具体形式，与到达任务的奖励函数；基于优先回放的DDPG算法改进；应用改进的DDPG算法进行抓捕任务的训练过程。本发明的有益效果是，不再需要对空间机器人与非合作环境进行精确建模，仅在观测特定状态的情况下进行智能算法的学习训练，即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声，使得机器人可以智能、自主地抓捕目标。
搜索关键词：	空间机器人目标运动强化学习学习训练捕获翻滚非合作目标观测噪声合作环境算法改进训练过程运动规划智能算法智能体回放建模与非算法机器人观测规划智能奖励应用改进学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于强化学习的空间机器人捕获翻滚目标运动规划方法，其特征在于步骤如下：步骤1、设计智能体状态与动作具体形式，设计奖励函数：动作具体形式：其中：τ_n为各关节的控制输入；智能体的状态量为：其中：机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮，其位置与姿态连续的奖励函数设置：r＝‑||p_e‑p_t||‑||τ||²；步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程：以初始状态为s₀，以DDPG决策器的初始参数为θ₀，在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作s_t+1与当前奖励值R_t，存入记忆库并标记其优先级；进行一段时间的数据收集后，根据优先回放概率抽取记忆用以神经网络的训练；计算DDPG的策略梯度：根据公式进行神经网络权重参数的更新，不断重复上述过程，直至训练收敛，最终收敛的网络权重参数即对应着最优策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811611279.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的空间机器人捕获翻滚目标运动规划方法在审

专利文献下载