[发明专利]处理装置、处理方法及记录介质在审
申请号: | 202110147006.1 | 申请日: | 2019-05-10 |
公开(公告)号: | CN112966806A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 寺本矢绘美;梁宇新;间濑正启;鲸井俊宏 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06N20/00;G06F16/9536 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 装置 方法 记录 介质 | ||
1.一种处理装置,其特征在于,具备:
第1处理部,进行对对象环境适用了规定的行动时的状态转变的模拟,计算状态转变后的上述对象环境的状态、以及利用第1指标求出的对所适用的上述行动的评价值;以及
第2处理部,基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动并输入至上述第1处理部,并且基于由上述第1处理部计算出的上述状态和上述评价值,更新上述价值函数;
在上述第2处理部中,基于第2指标,选定上述第1处理部中的模拟结果,并且基于所选定的模拟结果和上述价值函数,决定策略。
2.如权利要求1所述的处理装置,其特征在于,
上述第2处理部预先设定有根据第1指标计算评价值的评价值计算函数,基于被输入的第1指标,选择上述评价值计算函数。
3.如权利要求1所述的处理装置,其特征在于,
上述第2处理部以将权重较大的第2指标比权重较小的第2指标更优先地维持为良好的值的方式选定模拟结果。
4.如权利要求1所述的处理装置,其特征在于,
上述第2处理部计算上述第1指标与上述第2指标的相关系数,在上述相关系数为负的情况下,提示警告。
5.如权利要求4所述的处理装置,其特征在于,
上述第2处理部与以下的强化学习并行地计算上述相关系数,在判断为上述相关系数为负的阶段,结束上述强化学习,上述强化学习中反复进行:基于上述价值函数,选择行动并输入至上述第1处理部,并且基于由上述第1处理部计算出的上述状态和上述评价值,更新上述价值函数的处理。
6.如权利要求1所述的处理装置,其特征在于,
上述第2处理部在被输入的第1指标是在过去的策略搜索中作为第2指标的指标的情况下,使用在上述过去的策略搜索时得到的价值函数用作此次策略搜索中的价值函数的初始值。
7.如权利要求1所述的处理装置,其特征在于,
执行将以下的一系列处理反复进行多次的情节:上述第1处理部进行上述模拟而计算上述状态和上述评价值,上述第2处理部基于上述价值函数,选择行动并输入至上述第1处理部,并且基于由上述第1处理部计算出的上述状态和上述评价值,更新上述价值函数;
储存上述第2指标满足规定的条件的情节,基于所储存的上述情节对上述价值函数进行改善,并反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理直到满足规定的结束条件,提示基于得到的上述价值函数决定的策略。
8.一种处理方法,其特征在于,
基于表示针对对象环境的状态的行动的价值的价值函数,选择行动并作为向计算上述对象环境的状态和评价值的处理的输入,并且基于在上述处理中计算出的上述状态和上述评价值,更新上述价值函数,在上述处理中,进行对上述对象环境适用了规定的行动时的状态转变的模拟,计算状态转变后的上述对象环境的状态、以及利用第1指标求出的对所适用的上述行动的评价值;
基于第2指标,选定上述处理中的模拟结果,并且基于所选定的模拟结果和上述价值函数,决定策略。
9.一种记录介质,记录有处理程序,其特征在于,
上述处理程序使计算机执行以下步骤:
基于表示针对对象环境的状态的行动的价值的价值函数,选择行动并作为向计算上述对象环境的状态和评价值的处理的输入,并且基于在上述处理中计算出的上述状态和上述评价值,更新上述价值函数,在上述处理中,进行对上述对象环境适用了规定的行动时的状态转变的模拟,计算状态转变后的上述对象环境的状态、以及利用第1指标求出的对所适用的上述行动的评价值;
基于第2指标,选定上述处理中的模拟结果,并且基于所选定的模拟结果和上述价值函数,决定策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110147006.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动辅助轮椅车
- 下一篇:一种基于退火硬化提高多组元合金强塑性的方法