[发明专利]信息处理设备和信息处理方法在审
| 申请号: | 201980020131.7 | 申请日: | 2019-01-23 |
| 公开(公告)号: | CN111868760A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 木村友哉 | 申请(专利权)人: | 索尼公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;B25J13/00 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 设备 方法 | ||
1.一种信息处理设备,包括动作值计算单元,所述动作值计算单元配置为计算确定操作单元的行为的动作值,其中
基于所获取的目的改变因素和基于彼此不同的奖励而学习的多个第一动作值,所述动作值计算单元动态地计算要输入到所述操作单元的第二动作值。
2.根据权利要求1所述的信息处理设备,其中,所述动作值计算单元根据基于所述目的改变因素确定的比率,动态地计算多个所述第二动作值。
3.根据权利要求1所述的信息处理设备,其中,根据基于所述目的改变因素确定的各所述第一动作值的权重,所述动作值计算单元通过将多个所述第一动作值求和来动态地计算所述第二动作值。
4.根据权利要求1所述的信息处理设备,其中,所述目的改变因素包括由用户提供的目的改变指令。
5.根据权利要求1所述的信息处理设备,其中,所述目的改变因素包括所述操作单元的操作环境中的改变。
6.根据权利要求5所述的信息处理设备,其中,所述目的改变因素包括所述操作环境与从上下文中估计的预定环境匹配。
7.根据权利要求5所述的信息处理设备,其中,所述目的改变因素包括所述操作环境与用户设置目的操作的预定环境匹配。
8.根据权利要求1所述的信息处理设备,进一步包括操作单元,所述操作单元配置为基于所述第二动作值和所估计的操作环境,动态地改变行为。
9.根据权利要求8所述的信息处理设备,其中,当所述第二动作值基于所述目的改变因素改变时,所述操作单元向用户通知与所述目的改变因素和基于所述第二动作值而改变的行为相关的信息。
10.根据权利要求1所述的信息处理设备,进一步包括比率计算单元,所述比率计算单元配置为基于所获取的目的改变因素,计算用于计算所述第二动作值的比率。
11.一种信息处理设备,包括反馈单元,所述反馈单元配置为:针对操作单元的操作,确定与多个动作值相关的过量和不足并且控制与所述过量和所述不足相关的信息通知,其中,所述操作单元根据基于彼此不同的奖励而学习的多个动作值来执行动态行为。
12.根据权利要求11所述的信息处理设备,其中
所述操作单元基于第二动作值执行所述行为,所述第二动作值是根据基于彼此不同的奖励而学习的多个第一动作值和根据所获取的环境确定的所述第一动作值中的每一个的权重而动态计算的,以及
基于与第二动作值相关的计算结果,反馈单元确定与多个第一动作值相关的过量和不足。
13.根据权利要求12所述的信息处理设备,其中,当不能从多个所述第一动作值中计算实现针对预定环境设置的目的操作的所述第二动作值时,所述反馈单元执行与所述第一动作值的不足相关的信息通知。
14.根据权利要求13所述的信息处理设备,其中所述反馈单元计算同所述预定环境对应的所述目的操作与在所述预定环境中计算的所述第二动作值之间的匹配度,并且当所述匹配度低于阈值时,执行与所述第一动作值的不足相关的信息通知。
15.根据权利要求14所述的信息处理设备,其中,所述反馈单元基于匹配度低于阈值的预定环境,指定不足的第一动作值,并且执行与所指定的第一动作值的不足相关的信息通知。
16.根据权利要求15所述的信息处理设备,其中,反馈单元提取与匹配度低于阈值的多个预定环境相对应的多个目的操作所共有的特性,并且基于所述特性来指定不足的所述第一动作值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980020131.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多编解码器处理和速率控制
- 下一篇:用于对声源进行空间定位的装置、系统和方法





