[发明专利]提供强化学习代理和用其控制自主交通工具的方法和装置在审
申请号: | 202210451347.2 | 申请日: | 2022-04-27 |
公开(公告)号: | CN115392429A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 卡尔-约翰·赫尔;里奥·莱恩 | 申请(专利权)人: | 沃尔沃自主解决方案公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 穆森;戚传江 |
地址: | 瑞典*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 强化 学习 代理 控制 自主 交通工具 方法 装置 | ||
本发明涉及提供强化学习代理和用其控制自主交通工具的方法和装置。与使用强化学习代理来控制自主交通工具相关的方法包括多个训练会话,其中该代理与环境交互,多个训练会话分别具有不同初始值并且产生取决于状态(s)和动作(a)的状态动作分位数函数方法进一步包括第一不确定性估计,其基于针对状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量和第二不确定性估计,其基于针对状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量状态动作对可以与在执行之前验证的试验性决策相对应,或与代理对指导附加训练的可能决策相对应。
技术领域
本公开涉及自主交通工具领域。具体地,本公开描述了用于提供强化学习代理和用于使用该强化学习代理控制自主交通工具的方法和装置。
背景技术
通常将自主交通工具的决策制定任务划分为战略、战术和操作决策制定,也被称为导航、指导和稳定。简而言之,战术决策是指高级别,通常为离散的决策,诸如何时在高速公路上改变车道或在十字路口处是停止还是前进。本发明主要针对战术决策制定领域。
强化学习(RL)正在被应用于针对自主驾驶的决策制定。在初期工作中由RL训练的代理可能只被预期为在接近训练分布的情况下输出合理决策。实际上,这些方法的根本问题是,无论代理面临什么情况,这些代理始终都会输出决策,而没有关于决策的不确定性或代理在其训练期间是否已经经历了类似情况的任何建议或指示。例如,如果在具有迎面而来的交通工具交通的情景中部署了针对单向高速公路驾驶先前训练的代理,该代理仍然会产生决策,而没有这些决策的质量很可能低得多的任何警告。训练不足的更微妙的情况是这样一种情况,代理已经被暴露于标称或正常的高速公路驾驶环境并且突然面临造成交通停滞的超速驾驶的驾驶员或事故。
不确定性能够被分类为如下类别:任意不确定性和认知不确定性,并且许多决策制定问题需要考虑这两者。两条高速公路示例说明了认知不确定性。本发明人已经提出了用于管理这种类型的不确定性的方法,参见C.J.Hoel、K.Wolff和L.Laine,“通过具有不确定性估计的强化学习进行自主驾驶中的战术决策制定(Tactical decision-making inautonomous driving by reinforcement learning with uncertainty estimation)”,IEEE Intel.Veh.Symp.(IV),,2020,pp.1563–1569。交通工具还参见PCT/EP2020/061006。根据这些所提出的方法,使用具有加性随机先验函数的神经网络的集合来获得关于预期回报的后验分布。这种分布的一个用途是估计决策的不确定性。另一用途是将RL代理的进一步训练引导到其最需要的情况。利用这种工具,开发人员能够减少预防措施的支出,诸如在受控制的环境中进行真实世界测试,在此期间,将决策制定代理连续地细化,直到看到决策制定代理产生可接受地低级别的观察错误。这种常规地实践的测试是繁重的、耗时的,并且耗尽来自研究和开发的其它方面的资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沃尔沃自主解决方案公司,未经沃尔沃自主解决方案公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210451347.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于园艺系统的无线网络
- 下一篇:用于保持修辞流的技术