[发明专利]一种基于离线策略强化学习的机械臂控制方法及系统有效

申请号：	202210525911.0	申请日：	2022-05-16
公开（公告）号：	CN114888801B	公开（公告）日：	2023-10-13
发明（设计）人：	徐国政;李茂捷;刘元归;高翔;王强;陈盛	申请（专利权）人：	南京邮电大学
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	周宠
地址：	210046 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于离线策略强化学习机械控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了机械手控制领域的一种基于离线策略强化学习的机械臂控制方法及系统，包括：将状态信息s输入至上位机系统，通过抓取模型形成轨迹控制指令控制机械臂抓取所述目标体；所述抓取模型构建过程包括：构建抓取任务训练集；仿真环境中通过抓取任务训练集对抓取模型进行训练，得到仿真抓取任务元训练模型；在真实环境中对仿真抓取任务元训练模型进行少量训练；利用仿真训练过程中的仿真数据D^meta再次对仿真抓取任务元训练模型进行仿真训练，获得收敛的抓取模型；本发明提高了抓取模型的泛化性和迁移过程的样本效率，缩短了模型迁移时间，同时降低了机械臂在现实中训练的风险。

技术领域

本发明属于机械臂控制领域，具体涉及一种基于离线策略强化学习的机械臂控制方法及系统。

背景技术

深度强化学习(Deep Reinforcement Learning，DRL)因同时具备深度网络的特征提取能力和强化学习的决策能力，被广泛应用于机器人的运动控制中。基于深度强化学习的机械臂控制方法存在实体迁移(sim-to-real)的问题，即在仿真环境中训练结束后模型在现实任务中表现差，需要将其迁移至现实环境中继续训练。但在现实环境的训练中机械臂的运动具有一定的不确定性，容易对机械臂造成损害。在满足对模型性能的要求下，缩短现实世界的迁移过程、减少机械臂与环境的互动具有重要现实意义。

借鉴人类学习技能的方法，可以在智能体已学得相关技能的基础上，将相关技能的经验应用在新技能的学习上。元强化学习方法可以在相关任务上的训练过程中获取经验，提高模型的泛化性，一定程度上可缩短迁移过程。已有的元强化学习方法如MAML因模型的泛化性对内循环更新次数敏感，不适合离线策略(off-policy)强化学习方法，迁移过程的样本效率的提升受到较大限制。其他具有代表性的元强化学习算法如PEARL、MIER优化过程较为复杂，计算复杂度较高。

发明内容

本发明的目的在于提供一种基于离线策略强化学习的机械臂控制方法及系统，提高了抓取模型的泛化性和迁移过程的样本效率，缩短了模型迁移时间，同时降低了机械臂在现实中训练的风险。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种基于离线策略强化学习的机械臂控制方法，包括：

采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s；

预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令，并控制机械臂抓取所述目标体；

所述最终抓取模型构建过程包括：

在仿真器中改变目标体的形状和姿态，构建抓取任务训练集；

基于离线策略强化学习方法构建仿真抓取模型，基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练，将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据，存储至经验区D^meta，获得仿真抓取任务元训练模型；

在真实环境中对仿真抓取任务元训练模型进行设计次数的训练，记录机械臂的轨迹数据、轨迹变量作为迁移数据，存储至经验区D^new；由经验区D^new和经验区D^meta中分别抽取设定数量的迁移数据组，计算迁移数据组的倾向性得分和归一化有效采样量；

利用经验区D^meta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练，训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数；根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新，获得收敛的最终抓取模型。

优选的，在仿真器中改变目标体的形状和姿态，构建抓取任务训练集的方法包括：将目标体分别绕水平设置的旋转轴a和竖直设置的旋转轴b旋转18次，且每次旋转角度为10度，得到36个抓取任务，构建为抓取任务训练集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210525911.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种15w折叠式车载无线快充充电器
下一篇：一种POSS-酞菁铜-PS微球复合聚苯乙烯材料的制备方法

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于离线策略强化学习的机械臂控制方法及系统有效

专利文献下载