[发明专利]控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统在审
| 申请号: | 202011398791.X | 申请日: | 2020-12-02 |
| 公开(公告)号: | CN113022582A | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 藤元岳洋 | 申请(专利权)人: | 本田技研工业株式会社 |
| 主分类号: | B60W50/00 | 分类号: | B60W50/00 |
| 代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;霍玉娟 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 控制 装置 方法 记录 介质 信息处理 服务器 以及 控制系统 | ||
本发明提供一种在车辆的控制中能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用的控制装置。其使用强化学习对规定系统进行规定的控制,控制装置具有:检测单元,其对规定系统的生命周期中的事件进行检测;设定单元,其根据检测到事件这一情况,将根据检测到的事件而确定的探索参数设定为对强化学习中的探索的比例进行调整的值;以及处理单元,其按照所设定的探索参数来执行使用了强化学习的规定的控制,在检测到第一事件的情况下,设定单元以如下方式设定探索参数:使在作为第一事件之后的第一期间设定的探索的比例小于在检测到第一事件之前的第二期间设定的探索的比例。
技术领域
本发明涉及控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统。
背景技术
近年来,已知有在用于实现车辆的自主行驶的行动控制中使用强化学习的技术(专利文献1)。在专利文献1中,公开了如下内容:在学习强化学习中的策略(称为行动选择规则。也被称为策略policy)的过程中,以概率ε随机地选择行动,并以概率1-ε按照策略来选择行动(也被称为ε-greedy法)。即,为了通过学习来获得更适当的策略,需要兼顾用于得到更多样的行动策略的探索(exploration)和学习到的策略的利用(exploitation)。
现有技术文献
专利文献
专利文献1:日本特愿2019-087096号公报
发明内容
发明所要解决的问题
然而,当通过强化学习来进行行动控制的商品化的车辆在市场上行驶的情况下,设想的是不进行行动控制中的探索,以输出在学习完毕的状态下进行了测试等的一意性的控制信号。另一方面,为了实现自主行驶这样的高维的行动控制,需要进行用于从广大的行动空间探索最佳的行动的学习,有时希望在车辆的市场导入后也收集并利用为此的学习数据、尤其是在实际环境下得到的各种数据。
本发明是鉴于上述问题而完成的,其目的在于提供一种在车辆的控制中能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用的技术。
用于解决问题的手段
根据本发明,提供一种控制装置,其使用强化学习对规定系统进行规定的控制,其特征在于,
所述控制装置具有:
检测单元,其对所述规定系统的生命周期中的事件进行检测;
设定单元,其根据检测到所述事件这一情况,将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值;以及
处理单元,其按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制,
在检测到第一事件的情况下,所述设定单元以如下方式设定所述探索参数:使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。
另外,根据本发明,提供一种控制装置的控制方法,该控制装置使用强化学习对规定系统进行规定的控制,其特征在于,
所述控制装置的控制方法具有:
检测步骤,在该检测步骤中,对所述规定系统的生命周期中的事件进行检测;
设定步骤,在该设定步骤中,根据检测到所述事件这一情况,将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值;以及
处理步骤,在该处理步骤中,按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011398791.X/2.html,转载请声明来源钻瓜专利网。





