[发明专利]使用图像嵌入优化机器人代理的策略控制器在审
申请号: | 201880038469.0 | 申请日: | 2018-09-20 |
公开(公告)号: | CN110730970A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | Y.切博塔;P.塞尔马尼特;H.林奇 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了用于优化策略控制器以控制与环境交互以执行机器人任务的机器人代理的系统、方法和装置。方法之一包括使用神经网络优化策略控制器,该神经网络生成环境图像的数字嵌入和执行机器人任务的变体的另一代理的演示图像的演示序列。 | ||
搜索关键词: | 执行机器人 演示 神经网络优化 策略控制器 方法和装置 机器人代理 环境交互 环境图像 神经网络 优化策略 控制器 变体 嵌入 图像 代理 | ||
【主权项】:
1.一种优化策略控制器的方法,该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作,该方法包括:/n获得执行指定任务的变体的另一代理的演示图像的演示序列;/n使用时间对比神经网络处理演示序列中的每个演示图像,以生成每个演示图像的相应演示嵌入,其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入,其表征在输入图像中所描绘的环境的状态;/n通过执行使用当前策略控制器选择的动作,获得执行指定任务的机器人代理的机器人图像的机器人序列,其中,机器人序列中的每个机器人图像对应于演示序列中的相应演示图像;/n使用时间对比神经网络处理机器人序列中的每个机器人图像,以为每个机器人图像生成相应机器人嵌入;以及/n通过执行强化学习技术的迭代来更新当前策略控制器,以优化奖励函数,对于每个演示图像,奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880038469.0/,转载请声明来源钻瓜专利网。