[发明专利]一种情景记忆引导的机器人操作技能高效学习方法有效

申请号：	202111515059.0	申请日：	2021-12-13
公开（公告）号：	CN114161419B	公开（公告）日：	2023-09-15
发明（设计）人：	刘冬;王子途;丛明	申请（专利权）人：	大连理工大学
主分类号：	B25J9/16	分类号：	B25J9/16;B25J11/00
代理公司：	辽宁鸿文知识产权代理有限公司 21102	代理人：	苗青;王海波
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种情景记忆引导机器人操作技能高效学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种情景记忆引导的机器人操作技能高效学习方法，属于智能机器人服务技术领域。该高效学习方法首先，建立机器人学习系统情景记忆模型，并构建机器人感知与记忆进行相似性度量算法，实现对事件和场景信息检索匹配与情景记忆中事件的更新调用；其次，构建两相情景记忆引导的机器人操作技能深度强化学习算法，分别使用情景记忆引导动作选择过程；最后，并以情景记忆评估学习过程中各状态的价值，生成深度强化学习算法的奖赏函数。本发明提供使用已有经验指导机器人学习新技能的方法，能够提高机器人对操作技能的学习效率，解决机器人操作技能学习过程中数据量过大、使用深度强化学习算法学习效率低的问题。

技术领域

本发明属于智能机器人服务技术领域，涉及到一种情景记忆引导的机器人操作技能高效学习方法。

背景技术

近年来，智能机器人在工业生产、医疗、商业、家庭服务等领域，当前机器人的学习方法针对精确、重复性的任务已经能够胜任，但是缺乏对新任务的学习能力，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题。在发明专利CN112518742A中，清华大学深圳国际研究生院的李秀、杨瑞等公开了一种基于动态模型与事后经验回放的多目标机器人控制方法。其基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练，利用事后经验回放技术，在多目标强化学习中，将失败经历的目标替换为实际完成的目标。西安交通大学的田智强、李根等在发明专利CN111421538A中公开了一种基于优先级经验回放机制的深度强化学习控制算法。其训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级，然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。但是上述方法适用范围有限，首先，上述方法缺少对生物学习系统中经验复用相关功能的关注，在经验复用方面，上述方法采用经验回放的机制，在训练过程中提取经验池中的数据来重复进行神经网络的训练，缺少类似生物学习系统中对经验的直接检索、调用等功能。其次，上述方法在经验复用时，仅仅只考虑到某一时刻的机器人状态信息，未考虑到在连续工作的情况下机器人不同状态之间的关联性。同时，其机器人学习系统框架复杂，设计与搭建难度较大。最后，其缺少对使用深度强化学习方法时常常面临的奖赏函数设计与稀疏奖励的问题的研究，其只适用于在特定任务的学习，并需提前设计奖赏函数，无法进行机器人操作技能的完全自主学习，在认知层面缺少对生物学习能力的研究与应用，导致机器人缺少类人或类似生物的自主学习、探索的相关能力，未能实现机器人在实际应用时的高效学习性，难以满足机器人能够不断接触新任务，学习新技能的要求。因此上述方法尚不能满足智能机器人操作技能的快速学习等要求。

发明内容

本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验提高对任务学习的效率和使用深度强化学习时面临的系数奖励问题。针对当前机器人技能学习存在的需要大量数据训练，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题，本发明提出一种情景记忆引导的机器人操作技能高效学习方法。

为了达到上述目的，本发明采用的技术方案为：

一种情景记忆引导的机器人操作技能高效学习方法，所述学习方法首先设计了机器人情景记忆模块，在使用深度强化学习进行机器人操作技能学习的过程中，将学习过程分为前后两相，在前相位显式的调用记忆中的事件来提高样本效率，加快学习速度；其次，在后相位学习与环境交互的过程中，实时的更新和扩展记忆，形成机器人记忆更新迭代机制；再次，提取记忆模块中不同状态之间的联系，以最终状态为起点生成奖励函数；最后，结合机器人感知规划模块的感知环境、目标检测、路径规划能力，与目标对象进行交互完成任务，实现记忆引导的机器人操作技能快速学习。具体包括以下步骤：

步骤1：建立机器人学习情景记忆模型M；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111515059.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种大承重齿轮结构铰链
下一篇：目标轨迹追踪方法及装置、存储介质、电子设备

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种情景记忆引导的机器人操作技能高效学习方法有效

专利文献下载