[发明专利]一种基于元学习的机器人行为示教方法有效
申请号: | 202011483927.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112509392B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 胡梓烨;李伟;甘中学;王旭升;胡林强 | 申请(专利权)人: | 复旦大学 |
主分类号: | G09B5/02 | 分类号: | G09B5/02;G06V20/40;G06V10/82;G06N20/00;G06N3/04 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 机器人 行为 方法 | ||
1.一种基于元学习的机器人行为示教方法,用于对机器人获取的示教视频进行学习从而完成多种任务,其特征在于,包括如下步骤:
步骤S1,获取所述示教视频;
步骤S2,利用预先训练好的神经网络模型对所述示教视频进行学习从而完成多种所述任务,
其中,所述神经网络模型的训练过程包括如下步骤:
步骤T1,采集包含对比视频Vcomparison的训练示教视频Vdemo、机器人运动视频Vrobot以及轨迹动作Vaction;
步骤T2,利用预定的数据归一化方法对所述对比视频Vcomparison、所述训练示教视频Vdemo以及所述机器人运动视频Vrobot进行归一化处理得到预处理对比视频V'comparison、预处理示教视频V'demo以及预处理运动视频V'robot,并统一时长;
步骤T3,构建初始神经网络模型θ;
步骤T4,将所述预处理示教视频V'demo输入所述初始神经网络模型θ得到演示动作Daction,并计算演示动作损失Ldemo:
步骤T5,根据所述演示动作损失Ldemo对所述初始神经网络模型θ进行参数更新得到更新后的神经网络模型作为更新后模型θ':
式中,λ为超参数学习率;
步骤T6,将所述预处理示教视频V'demo输入更新模型θ'得到预测的演示轨迹动作Paction-demo以及对应的演示语义Edemo、将所述预处理对比视频V'comparison输入更新模型θ'得到预测的对比轨迹动作Paction-comparison以及对应的对比语义Ecomparison、将所述预处理运动视频V'robot输入更新模型θ'得到预测的机器人轨迹动作Paction-robot以及对应的机器人目标语义Etarget,其中,我们用取值为实数集的N维向量来表示每一个演示语义Edemo、对比语义Ecomparison以及机器人目标语义Etarget:
步骤T7,基于所述轨迹动作Vaction以及预测的机器人轨迹动作Paction-robot计算得到目标动作损失Laction:
步骤T8,根据所述演示语义Edemo、所述运动语义Etarget以及所述对比语义Ecomparison计算得到语义损失Lembedding:
Lembedding=∑max[0,M-Edemo·Etarget+Etarget·Ecomparison+Edemo·Ecomparison] (5)
式中,M为阈值;
步骤T9,基于所述目标动作损失Laction以及所述语义损失Lembedding得到总损失L:
L=αLaction+βLembedding (6)
式中,α以及β为超参数;
步骤T10,基于所述总损失L进行求导,得到的损失梯度从而完成对所述更新后模型θ'的更新得到神经网络模型θ”:
式中,δ为超参数学习率;
步骤T11,重复所述步骤T4至所述步骤T11达到预定的训练次数,直到所述总损失L稳定收敛到预定的总损失阈值Lmargin,从而得到所述训练好的神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483927.7/1.html,转载请声明来源钻瓜专利网。