[发明专利]信息处理设备、信息处理方法和程序有效
申请号: | 201210366351.5 | 申请日: | 2012-09-28 |
公开(公告)号: | CN103198358A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 小林由幸 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N3/12 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 陈芳 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 程序 | ||
技术领域
本公开涉及信息处理设备、信息处理方法和程序。
背景技术
近年来,人们已经关注从难以定量地确定特征的任意的数据集机械地提取特征量的方法。例如,已知有一种方法用于自动地构建这样一种算法,该算法用于输入任意的音乐数据并机械地提取这样的音乐数据所属于的音乐流派(genre)。诸如爵士乐、古典乐和流行乐的音乐流派不是通过乐器的类型或演奏的风格来定量地决定的。出于这一原因,传统上认为当提供任意的音乐数据时,难以机械地提取音乐数据的流派。
但是,实际上,决定一首音乐作品的流派的特征被潜在地包含在各种信息的组合中,诸如,包含在音乐数据中的间隔、这些间隔组合的方式、乐器类型的组合、以及旋律线和/或低音线的结构的组合。出于这一原因,在假定自动地构建用于通过机器学习提取这样的特征的算法(或“特征量提取装置”)是可能的情况下,已经对特征量提取装置进行了研究。这样的研究的一个成果是在日本特开公报No.2009-48266中公开的基于遗传算法的用于特征量提取装置的自动构建方法。“遗传算法”的表述是指一种算法,该算法以与生物进化过程中的方式相同的方式考虑在机器学习的过程中的元素的选择、交叉和突变。
通过使用在引用的出版物中公开的用于特征量提取装置的自动构建算法,可以自动地构建从任意音乐数据提取该音乐数据所属于的音乐流派的特征量提取装置。在引用的出版物中公开的用于特征量提取装置的自动构建算法还具有极其广泛的应用性,并且可以构建从不限于音乐数据的任意数据集提取该数据集的特征量的特征量提取装置。出于这一原因,期待在引用的出版物中公开的用于特征量提取装置的自动构建算法可以被应用于诸如音乐数据和/或视频数据的人工数据的特征量分析,以及在自然世界中呈现的各种观测值的特征量分析。
发明内容
通过进一步扩展引用的出版物的技术,本发明人研究是否可以开发一种自动地构建用于使代理智能地行动的算法的技术。在这样的研究期间,本发明人专注于一种技术,该技术自动地构建用于决定从特定状态下代理可以采取的行动中选择的行动的思考过程(thought routine)。本公开涉及这样的技术并致力于提供一种新型的、改进的信息处理设备、信息处理方法和程序,该信息处理设备、信息处理方法和程序能够有效地并自动地构建当选择要被代理采取的行动时输出起决定性的信息的估计器。
根据本公开的实施例,提供一种信息处理设备,其包括:报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
此外,根据本公开的实施例,提供一种信息处理设备,其包括:报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210366351.5/2.html,转载请声明来源钻瓜专利网。