[发明专利]使用图像嵌入优化机器人代理的策略控制器在审
申请号: | 201880038469.0 | 申请日: | 2018-09-20 |
公开(公告)号: | CN110730970A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | Y.切博塔;P.塞尔马尼特;H.林奇 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 执行机器人 演示 神经网络优化 策略控制器 方法和装置 机器人代理 环境交互 环境图像 神经网络 优化策略 控制器 变体 嵌入 图像 代理 | ||
提供了用于优化策略控制器以控制与环境交互以执行机器人任务的机器人代理的系统、方法和装置。方法之一包括使用神经网络优化策略控制器,该神经网络生成环境图像的数字嵌入和执行机器人任务的变体的另一代理的演示图像的演示序列。
对相关申请的交叉引用
本申请要求于2017年9月20日提交的美国临时专利申请序列号No.62/561,133的优先权,其公开内容通过引用整体并入本文。
技术领域
本说明书涉及强化学习。
背景技术
在强化学习系统中,代理响应于接收表征环境的当前状态的观察,通过执行由强化学习系统选择的动作来与环境交互。
一些强化学习系统根据神经网络的输出,响应于接收给定的观察,选择要由代理执行的动作。神经网络是机器学习模型,它使用一层或多层非线性单元来预测接收的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层、即下一隐藏层或输出层的输入。网络的每个层根据相应的参数集合的当前值从接收的输入生成输出。
发明内容
本说明书描述了一种系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,其优化策略控制器,该策略控制器用于选择将由与环境交互的机器人代理执行的动作。具体地,策略控制器可以用于选择动作,使得机器人代理可以成功地执行机器人任务,例如,对象抓取任务、对象移动任务、导航任务或需要代理与真实环境交互以用于一些特定目的的其他任务。在一些情况下,策略控制器是以轨迹为中心的控制器,例如时变高斯控制器。在其他情况下,策略控制器是深度神经网络。
可以在特定实施例中实现本说明书中描述的主题,以实现以下优点中的一个或多个。本说明书中描述的系统可以利用神经网络,其被训练来生成数字嵌入,该数字嵌入对于某些变换是不变的,例如对于诸如视点、遮挡、运动模糊、照明、背景或对象实例的变换是不变的,以有效地优化策略控制器,以选择要由机器人代理执行的操作。因此,系统可以仅使用原始视频演示进行监视来优化控制器,即无需任何明确的联合级别对应关系或其他标记的数据。具体地,该系统既可以训练生成嵌入的时间对比神经网络,又可以仅使用原始视频数据来优化策略控制器。例如,对诸如视图变换的因素的学习的不变性可以改善其他代理在模仿运动时的性能。具体地,所描述的系统可以优化策略控制器,以便即使在机器人代理执行任务时仅仅由机器人代理拍摄的第一人图像可用时,控制代理仅从执行该任务的另一代理的第三人图像来执行任务。即,在代理执行任务时,即使当演示图像的视点与由机器人代理捕获的图像的视点不同时,系统也可以有效地优化策略控制器。
本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例强化学习系统。
图2示出了被配置为训练时间对比神经网络的示例训练系统。
图3示出了由两个不同模态捕获的观察的示例三元组。
图4示出了观察的另一示例三元组,包括由单个模态捕获的锚(anchor)观察、肯定观察和否定观察。
图5是用于训练时间对比神经网络的示例处理的流程图。
图6是用于优化策略控制器的示例处理的流程图。
在各个附图中,相同的附图标记和标号表示相同的元件。
具体实施方式
图1示出了示例强化学习系统100,其优化用于控制机器人代理112的策略控制器110。强化学习系统100是被实现为实现在下面描述的系统、组件和技术的一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例。机器人代理112可以是例如机器人臂或更复杂的机器人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880038469.0/2.html,转载请声明来源钻瓜专利网。