[发明专利]一种基于语境翻译的机器人模仿学习方法在审
申请号: | 201710927010.3 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107622311A | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语境 翻译 机器人 模仿 学习方法 | ||
1.一种基于语境翻译的机器人模仿学习方法,其特征在于,主要包括学习语境翻译(一);用于特征追踪的奖励功能(二);加强学习算法的特征追踪(三)。
2.基于权利要求书1所述的模拟观察算法,其特征在于,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
3.基于权利要求书1所述的学习语境翻译(一),其特征在于,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
4.基于权利要求书3所述的翻译模型,其特征在于,翻译模型是通过对演示和进行训练的,其中,Dj来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
5.基于权利要求书4所述的翻译,其特征在于,通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
6.基于权利要求书3所述的模型的组件,其特征在于,该模型由四个组件组成:组件一为源观测编码器表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失的监督。
7.基于权利要求书6所述的编码器和解码器,其特征在于,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失这使编码器Enc1和解码器Dec采用一致的特征表示,使得目标语境观察被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数给出,其中,Di和Dj是从训练集中随机选择的一对演示,而λ1和λ2是超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710927010.3/1.html,转载请声明来源钻瓜专利网。