[发明专利]控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统在审
| 申请号: | 202011398791.X | 申请日: | 2020-12-02 |
| 公开(公告)号: | CN113022582A | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 藤元岳洋 | 申请(专利权)人: | 本田技研工业株式会社 |
| 主分类号: | B60W50/00 | 分类号: | B60W50/00 |
| 代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;霍玉娟 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 控制 装置 方法 记录 介质 信息处理 服务器 以及 控制系统 | ||
1.一种控制装置,其使用强化学习对规定系统进行规定的控制,其特征在于,
所述控制装置具有:
检测单元,其对所述规定系统的生命周期中的事件进行检测;
设定单元,其根据检测到所述事件这一情况,将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值;以及
处理单元,其按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制,
在检测到第一事件的情况下,所述设定单元以如下方式设定所述探索参数:使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。
2.根据权利要求1所述的控制装置,其特征在于,
所述设定单元设定将在所述第一期间设定的探索的比例设为非零的所述探索参数。
3.根据权利要求1所述的控制装置,其特征在于,
所述设定单元设定在所述第一期间设定的探索的比例和在所述第二期间设定的探索的比例为非连续的所述探索参数。
4.根据权利要求1所述的控制装置,其特征在于,
所述事件包括针对所述规定系统的手续的完成、所述规定系统达到特定的使用状态、以及对所述规定系统进行控制的构成要素的更新中的至少任一项。
5.根据权利要求4所述的控制装置,其特征在于,
针对所述规定系统的手续的完成包括所述规定系统的制造完成以及所述规定系统的登记完成中的至少任一项。
6.根据权利要求4所述的控制装置,其特征在于,
所述规定系统达到特定的使用状态包括从规定的时间点起经过了规定天数、从规定的时间点起行驶了规定行驶距离中的至少任一项。
7.根据权利要求4所述的控制装置,其特征在于,
对所述规定系统进行控制的构成要素的更新包括在所述强化学习中使用的学习模型的版本的更新。
8.根据权利要求1所述的控制装置,其特征在于,
所述控制装置还具有确定单元,所述确定单元根据检测出的所述事件来确定所述探索参数。
9.根据权利要求1所述的控制装置,其特征在于,
所述控制装置还具有:
发送单元,其将检测出的所述事件发送至外部服务器;以及
接收单元,其从所述外部服务器接收根据所述事件而确定的所述探索参数。
10.根据权利要求1所述的控制装置,其特征在于,
所述探索参数针对每个规定系统或每个规定系统的模型而不同。
11.根据权利要求1所述的控制装置,其特征在于,
所述控制装置还具有提供单元,所述提供单元将以由所述处理单元执行的所述强化学习的模型为对象的输入信息和输出信息作为学习数据提供给外部服务器。
12.一种控制装置的控制方法,该控制装置使用强化学习对规定系统进行规定的控制,其特征在于,
所述控制装置的控制方法具有:
检测步骤,在该检测步骤中,对所述规定系统的生命周期中的事件进行检测;
设定步骤,在该设定步骤中,根据检测到所述事件这一情况,将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值;以及
处理步骤,在该处理步骤中,按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制,
在所述设定步骤中,在检测到第一事件的情况下,以如下方式设定所述探索参数:使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011398791.X/1.html,转载请声明来源钻瓜专利网。





