[发明专利]使用图像嵌入优化机器人代理的策略控制器在审
申请号: | 201880038469.0 | 申请日: | 2018-09-20 |
公开(公告)号: | CN110730970A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | Y.切博塔;P.塞尔马尼特;H.林奇 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 执行机器人 演示 神经网络优化 策略控制器 方法和装置 机器人代理 环境交互 环境图像 神经网络 优化策略 控制器 变体 嵌入 图像 代理 | ||
1.一种优化策略控制器的方法,该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作,该方法包括:
获得执行指定任务的变体的另一代理的演示图像的演示序列;
使用时间对比神经网络处理演示序列中的每个演示图像,以生成每个演示图像的相应演示嵌入,其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入,其表征在输入图像中所描绘的环境的状态;
通过执行使用当前策略控制器选择的动作,获得执行指定任务的机器人代理的机器人图像的机器人序列,其中,机器人序列中的每个机器人图像对应于演示序列中的相应演示图像;
使用时间对比神经网络处理机器人序列中的每个机器人图像,以为每个机器人图像生成相应机器人嵌入;以及
通过执行强化学习技术的迭代来更新当前策略控制器,以优化奖励函数,对于每个演示图像,奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。
2.根据权利要求1所述的方法,其中,另一代理是人类演示者。
3.根据权利要求1所述的方法,其中,另一代理是不同的机器人代理。
4.根据权利要求1至3中的任一项所述的方法,其中,策略控制器是以轨迹为中心的控制器。
5.根据权利要求4所述的方法,其中,策略控制器是时变高斯控制器。
6.根据权利要求1至5中任一项所述的方法,其中,强化学习技术是PILQR技术。
7.根据权利要求1至6中任一项所述的方法,其中,奖励函数包括欧几里得距离项,该欧几里得距离项是演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的欧几里得距离的平方。
8.根据权利要求1至7中任一项所述的方法,其中,奖励函数包括Huber型损失项,该Huber型损失项是常数值与欧几里得距离的平方之间的和的平方根,该欧几里得距离是演示图像的演示嵌入和对应机器人图像的机器人嵌入之间的欧几里得距离。
9.根据权利要求1至6中的任一项所述的方法,其中,奖励函数满足:
其中vt是演示序列中第t位置的演示图像的演示嵌入,wt是机器人序列中第t位置的机器人图像的机器人嵌入,α和β是固定权重参数,并且γ是小的正常数值。
10.根据权利要求1至9中任一项所述的方法,其中,从与机器人序列中的图像不同的视点捕获演示序列中的图像。
11.根据权利要求10所述的方法,其中,从相对于另一代理的第三方视角捕获演示序列中的图像,并且从相对于机器人代理的第一方视角捕获机器人序列中的图像。
12.根据权利要求1至11中任一项所述的方法,其中,对应机器人图像是在机器人序列中与演示图像在演示序列中的位置处于相同位置的机器人图像。
13.根据权利要求1至12中任一项所述的方法,其中,时间对比神经网络具有多个网络参数,并且其中,所述方法还包括:
训练时间对比神经网络以生成数字嵌入,包括:
获得由第一模态捕获的环境的第一图像;
获得与第一图像同时出现并由第二不同模态捕获的第二图像;
获得由第一模态捕获的与第一图像不同时出现的第三图像;
确定使用第一图像作为锚示例、第二图像作为肯定示例且第三图像作为否定示例的三元组损失的梯度;以及
使用三元组损失的梯度来更新网络参数的当前值。
14.根据权利要求13所述的方法,其中,第一模态是在第一视点处的相机,并且其中,第二模态是在第二不同视点处的相机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880038469.0/1.html,转载请声明来源钻瓜专利网。