[发明专利]一种基于元模拟学习的多任务智能机器人学习方法及装置有效
申请号: | 202011022727.1 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114248265B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 雷渠江;桂光超;李秀昊;王雨禾;金锦涛;王卫军 | 申请(专利权)人: | 广州中国科学院先进技术研究所 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/084;G06N3/096;G06N3/0985;G06N3/0464 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 511458 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模拟 学习 任务 智能 机器人 学习方法 装置 | ||
本发明是关于一种基于元模拟学习的多任务智能机器人学习方法及装置。该方案包括获取所有的初始数据,通过one‑shot模拟学习对所述初始元策略进行预训练,获取最优训练参数的第一元策略;进行B次训练将第一试验数据集更新为第二试验数据集;对比余弦距离与配对阈值α之间的关系,第二试验数据更新为第三试验数据;通过one‑shot模拟学习进行训练,利用神经网络将第一元策略参数化为第二元策略,输出一个智能机器人的行为分布。该方案利用额外的自主收集的数据来提高其one‑shot模拟性能,并可利用机器人自己的试验来演示机器人实际尝试的任务以外的任务,易于实现,且能够扩展智能机器人的自主学习能力。
技术领域
本发明涉及机器人智能控制技术领域,尤其涉及一种基于元模拟学习的多任务智能机器人学习方法及装置。
背景技术
机器人学习(robot learning)可以自主完成各种动作和执行不同任务,该技术扩展了机器人的作用。但是,为了使机器人成为多面手,配备大量技能,需要机器人能够从相对较少的历史数据中学习一项新技能。这种机器人学习新技能的能力在智能制造一系列领域中有着巨大的应用前景。
目前,机器人学习的两种最成功的方法分别是机器人使用人类提供的演示数据学习技能的模仿学习和基于机器人自己试错的强化学习。两种方法各有所长。一方面,强化学习使机器人能够根据自己的经验不断改进学习技能,但这种改进通常局限于学习技能的复杂性,而不是自主地发现解决问题的技能,并且强化学习的优化通常难度较大。另一方面,模仿学习是一个更简单的监督学习问题,它们需要收集人类示教数据,缺点是机器人不能像强化学习那样持续自主地改进技能算法。此外,模仿学习和强化学习都结合了现阶段蓬勃发展的深度学习方法,在大大提升学习性能的同时都对数据提出了很高要求。例如:在模仿学习中,操作员必须为每个任务提供大量的示教;在强化学习中,机器人也有庞大的自动数据收集需求。对数据的高要求导致了机器人的技能学习的扩展性差,很难满足工业化生产中大量学习技能的要求。
发明内容
为克服相关技术中存在的问题,本发明提供一种基于元模拟学习的多任务智能机器人学习方法及装置,从而解决自动数据收集需求困难问题,以利用机器人自己的试验来演示机器人实际尝试的和适应从未见过的任务。
根据本发明实施例的第一方面,提供一种基于元模拟学习的多任务智能机器人学习方法,所述方法包括:
获取所有的初始示教数据集、所有的元训练任务集、所有的配对阈值、训练批次和初始元策略,其中,训练批次为B,配对阈值为α,初始元策略为π;
通过one-shot模拟学习对所述初始元策略进行预训练,获取最优训练参数的第一元策略;
建立一个第一试验数据集;
进行B次训练将第一试验数据集更新为第二试验数据集;
从第二试验数据集中依次的根据所有的两个不同的试验进行余弦距离运算,进而对比余弦距离与配对阈值α之间的关系,当余弦距离大于或等于配对阈值α时,对应的两个不同的试验以成对的形式加入到第二试验数据集中;
当第二试验数据集中所有的两个不同的试验全部运算完成后,第二试验数据更新为第三试验数据;
根据第三试验数据,通过one-shot模拟学习进行训练,利用神经网络将第一元策略参数化为第二元策略;
利用第二元策略,以各个示教数据集为输入,输出一个智能机器人的行为分布。
在一个实施例中,优选地,通过one-shot模拟学习对所述初始元策略进行预训练的过程包括:
获取所述初始示教数据集;
将所述初始示教数据集的输入到所述初始元策略进行计算获取所述的行为分布;
根据考虑参数形式的所述初始元策略分析所有的所述初始元策略的参数对应的损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州中国科学院先进技术研究所,未经广州中国科学院先进技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011022727.1/2.html,转载请声明来源钻瓜专利网。