[发明专利]信息处理设备和信息处理方法在审
| 申请号: | 201980020131.7 | 申请日: | 2019-01-23 |
| 公开(公告)号: | CN111868760A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 木村友哉 | 申请(专利权)人: | 索尼公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;B25J13/00 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 设备 方法 | ||
[问题]根据目的的改变实现最佳动作。[解决方案]提供了一种信息处理设备,包括动作值计算部,用于计算用于确定动作部的行为的动作值,其中根所述动作值计算部据基于不同奖励学习的多个第一动作值和所获得的目的改变因素,计算要输入到所述动作部中的第二动作值。提供了一种信息处理设备,包括反馈部,根据基于根据不同奖励而学习的多个动作值来执行动态行为的动作部的动作的结果,该反馈部用于确定所述多个动作值的过量或不足,并且控制与所述过量或不足相关的信息通知。
技术领域
本公开涉及一种信息处理设备和信息处理方法。
背景技术
最近,已经开发了各种利用机器学习技术的设备。上述设备的示例包括各种操作体,每个操作体基于通过强化学习获得的动作值,执行自动操作。此外,积极研究提高强化学习的性能和效率的技术。例如,非专利文献1公开了一种基于强化学习的目的以分割方式学习动作值并将所获得的动作值之和用作确定性动作值的技术。
引文列表
专利文献
专利文献1:Harm van Seijen和其他五个人,用于强化学习的混合奖励架构(Hybrid Reward Architecture for Reinforcement Learning),2017年6月13日,[在线],[2018年3月21日搜索],因特网https://arxiv.org/pdf/1706.04208.pdf
发明内容
技术问题
然而,利用非专利文献1中公开的技术,由于上述总和中的比率是恒定的,因此难以在目的改变时灵活地改变操作体的行为。
因此,本公开提供了新颖的和修改的并且可以遵循目的改变实现最佳操作的信息处理设备和信息处理方法。
问题解决方案
根据本公开,提供了一种信息处理设备,包括动作值计算单元,该动作值计算单元配置为计算确定操作单元的行为的动作值,其中基于所获取的目的改变因素和基于彼此不同的奖励而学习的多个第一动作值,动作值计算单元动态地计算要输入到操作单元的第二动作值。
此外,根据本公开,提供了一种信息处理设备,包括反馈单元,被配置为针对操作单元的操作,确定与动作值相关的过量和不足并且控制与过量和不足相关的信息通知,所述操作单元根据基于彼此不同的奖励而学习的多个动作值来执行动态行为。
此外,根据本公开,提供了一种由处理器执行的信息处理方法,包括计算确定操作单元的行为的动作值,其中所述计算包括基于所获取的目的改变因素和基于彼此不同的奖励而学习的多个第一动作值,动态地计算要输入到操作单元的第二动作值。
此外,根据本公开,提供了一种由处理器执行的信息处理方法,该方法包括基于操作单元的操作结果来确定与动作值相关的过量和不足,并且控制与所述过量和不足相关的信息通知,其中,所述操作单元根据基于彼此不同的奖励而学习的多个动作值来执行动态行为。
本发明的有益效果
根据如上所述的本公开,可以在目的改变之后实现最佳操作。
上述效果不一定是限制性的,而是可以包括,除了上述效果之外或代替上述效果,本说明书中描述的任何效果或可以从本说明书中理解的其他效果。
附图说明
图1是用于描述本公开的实施例的概观的图。
图2是示出根据本实施例的信息处理设备的示例性功能配置的框图。
图3A是用于说明动作值与动作之间的差异的图。
图3B是用于说明动作值与动作之间的差异的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980020131.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多编解码器处理和速率控制
- 下一篇:用于对声源进行空间定位的装置、系统和方法





