[发明专利]基于强化学习的空间机器人捕获翻滚目标运动规划方法在审
申请号: | 201811611279.1 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109760046A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王明明;弓铎;罗建军;袁建平;朱战霞 | 申请(专利权)人: | 西北工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 空间机器人 目标运动 强化学习 学习训练 捕获 翻滚 非合作目标 观测噪声 合作环境 算法改进 训练过程 运动规划 智能算法 智能体 回放 建模 与非 算法 机器人 观测 规划 智能 奖励 应用 改进 学习 | ||
本发明涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,包括设计了用以学习训练的智能体状态与动作具体形式,与到达任务的奖励函数;基于优先回放的DDPG算法改进;应用改进的DDPG算法进行抓捕任务的训练过程。本发明的有益效果是,不再需要对空间机器人与非合作环境进行精确建模,仅在观测特定状态的情况下进行智能算法的学习训练,即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声,使得机器人可以智能、自主地抓捕目标。
技术领域
本发明属于空间机器人运动规划方法,涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法。
背景技术
得益于空间机器人的灵活性、可重用性、多功能性等特点,使用其对日益增多的空间失效卫星进行在轨抓捕有着十分重要的应用前景。现有的方法通常将空间机器人抓捕非合作目标的任务分为抓捕前与抓捕后两阶段,对于抓捕前的机械臂轨迹规划问题,常见的要求包括机械臂对基座的姿态无扰、避奇异、及抓捕时末端碰撞力不能过大等。轨迹规划过程中,需要考虑非合作目标的最优抓捕点与抓捕时机、机械臂自身初始构型、机械臂关节电机驱动力等约束条件。见文献:Kawamoto S.,Nishida S.,and Kibe S.Research on aSpace Debris Removal System.NAL Res Prog(National Aerospace Lab.Japan),Vol.2002/2003,2003,pp.84-87.
已有的研究已经完成了通过辨识非合作目标的运动参数,实现机械臂对基座无扰的机械臂抓捕非合作目标的轨迹规划,然而如何在对非合作目标的观测信息有噪声、不能完全观测全局信息、机械臂建模有误差、输入变量存在不确定性的情况下,在不首先辨识非合作目标的运动参数的情况下,直接面向抓捕任务,自主智能地实现满足多目标抓捕任务的机械臂的轨迹规划,这对智能算法的轨迹规划实现提出了需求。强化学习算法在地面机器人运动规划问题中已经有了一些应用,由于机器人系统连续空间的特性,表格型强化学习不再适用。Depraetere.B等使用引入自然Actor-Critic算法的策略迭代方法控制机械臂完成羽毛球的击球动作,其中评价网络部分使用时间微分法,见文献:Depraetere,B.,Liu,M.,Pinte,G.,Grondman,I.,Babuˇska,R.:Comparison of model-free and model-basedmethods for time optimal hit control of a badminton robot.Mechatronics 24(8),1021–1030(2014)。LSTD-Q(λ)算法,T.Lillicrap等提出了用于连续控制问题的深度强化学习算法,见文献:T.Lillicrap,J.Hunt,A.Pritzel,N.Heess,T.Erez,Y.Tassa,D.Silver,and D.Wierstra.Continuous control with deep reinforcement learning.InProc.ofICLR,2016。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,采用深度确定性策略梯度算法,引入优先回放的算法改进,针对空间机器人抓捕非合作目标的运动规划进行学习训练与决策求解。针对未来空间机器人在轨服务翻滚目标任务,用于在无模型的情况下,空间机器人智能、自主地抓捕目标。
技术方案
一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于步骤如下:
步骤1、设计智能体状态与动作具体形式,设计奖励函数:
动作具体形式:
其中:τn为各关节的控制输入;
智能体的状态量为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811611279.1/2.html,转载请声明来源钻瓜专利网。