[发明专利]提供强化学习代理和用其控制自主交通工具的方法和装置在审
申请号: | 202210451347.2 | 申请日: | 2022-04-27 |
公开(公告)号: | CN115392429A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 卡尔-约翰·赫尔;里奥·莱恩 | 申请(专利权)人: | 沃尔沃自主解决方案公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 穆森;戚传江 |
地址: | 瑞典*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 强化 学习 代理 控制 自主 交通工具 方法 装置 | ||
1.一种使用强化学习RL代理控制自主交通工具的方法(100),所述方法包括:
多个训练会话(110-1、……、110-K),其中所述RL代理与包括所述自主交通工具的环境交互,每个训练会话具有不同初始值并且产生取决于状态s和动作a的状态动作分位数函数
决策制定(112),其中所述RL代理输出与所述自主交通工具的控制相关的至少一个试验性决策;
第一不确定性估计(114),所述第一不确定性估计(114)基于针对与所述试验性决策相对应的状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量
第二不确定性估计(116),所述第二不确定性估计(116)基于针对与所述试验性决策相对应的状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量以及
交通工具控制(118),其中根据所述第一估计不确定性和/或所述第二估计不确定性来执行所述至少一个试验性决策。
2.一种提供用于决策制定的强化学习RL代理以用于控制自主交通工具的方法(200),所述方法包括:
多个训练会话(210-1、......、210-K),其中所述RL代理与包括所述自主交通工具的环境(E1)交互,每个训练会话具有不同初始值并且产生取决于状态s和动作a的状态动作分位数函数
第一不确定性估计(214),所述第一不确定性估计(214)基于由训练后的RL代理针对与可能决策相对应的状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量
第二不确定性估计(216),所述第二不确定性估计(216)基于针对所述状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量以及
附加训练(218),其中所述RL代理与包括所述自主交通工具的第二环境(E2)交互,其中所述第二环境与所述第一环境的不同在于增加暴露于所述第一估计不确定性和/或所述第二估计不确定性相对较高的状态动作对的子集。
3.根据权利要求1或2所述的方法,其中,所述RL代理包括至少一个神经网络。
4.根据前述权利要求中的任一项所述的方法,其中,所述训练会话中的每一个采用隐式分位数网络IQN,所述RL代理能够从所述隐式分位数网络推导。
5.根据权利要求4所述的方法,其中,训练会话的所述初始值与随机化先验函数RPF相对应。
6.根据前述权利要求中的任一项所述的方法,其中,所述不确定性估计与组合的任意不确定性和认知不确定性相关。
7.根据前述权利要求中的任一项所述的方法,其中,在所述第二不确定性估计中使用的所述变异性测量被应用于相应状态动作分位数函数的采样预期值
8.根据前述权利要求中的任一项所述的方法,其中,所述变异性测量为以下中的一项或多项:方差、范围、偏差、变异系数、熵。
9.根据权利要求1和3至8中的任一项所述的方法,其中,仅在所述第一估计不确定性和所述第二估计不确定性小于相应预定义阈值的情况下,所述试验性决策被执行。
10.根据权利要求9所述的方法,其中:
所述决策制定包括输出多个试验性决策的所述RL代理;以及
所述交通工具控制包括相对于所述试验性决策的估计不确定性对所述试验性决策的顺序评估。
11.根据权利要求10所述的方法,其中,在所述顺序评估没有返回要被执行的试验性决策的情况下,可选地基于备份策略的备份决策被执行。
12.根据权利要求1和3至11中的任一项所述的方法,其中,所述决策制定包括战术决策制定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沃尔沃自主解决方案公司,未经沃尔沃自主解决方案公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210451347.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于园艺系统的无线网络
- 下一篇:用于保持修辞流的技术