[发明专利]基于元强化学习的车辆自适应的自动驾驶决策方法及系统有效
申请号: | 202110356309.4 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113044064B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 章宗长;俞扬;周志华;胡亚飞;徐峰 | 申请(专利权)人: | 南京大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;G05D1/02 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 车辆 自适应 自动 驾驶 决策 方法 系统 | ||
本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。
技术领域
本发明涉及一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,适用各种不同规格不同型号的车辆使用,而无需对于每一款汽车都重新学习新的自动驾驶系统,属于汽车自动驾驶技术领域。
背景技术
自动驾驶主要需要解决三个核心问题:状态感知、路径规划以及驾驶行为的选择。目前,如何确定汽车所处的状态也就是“我在哪”的问题可以通过使用多种传感器来解决;如何确定到达目的地的整体路径即“怎么去”的问题可以使用当前主流的Dijkstra、A*、动态规划等算法来解决。然而,如何根据汽车当前所处的状态来选择最合适的驾驶行为,如在通过路口时如何根据红路灯以及路口的车辆行人状况的信息决定是匀速通过或刹车等待等行为,确保行车安全,此类问题是当前汽车自动驾驶领域最重要的研究问题。
基于强化学习的思想,我们把汽车的行驶过程看作是一个马尔可夫决策过程(Markov Decision Process,MDP)。汽车下一时刻所处的状态只与当前时刻的状态和基于当前状态采取的动作有关。
除了这种状态转移的性质外,奖励函数是使用强化学习解决序列决策问题的关键。在强化学习中,智能体在环境中进行探索,通过环境对自身的反馈,通常是一个奖励值,并以此来更新自己在环境中执行的策略。也就是说,智能体采取了一个动作后,环境通过奖励来告诉智能体它采取的动作是好是坏,以及好坏的程度。因此,设计者在设计任务时,需要根据任务执行的目的来定义奖励函数,这要求设计者具备一定的先验知识。例如,在自动驾驶任务中,奖励函数的设计需要综合安全性、舒适性、高效性等各方面因素。
其次,由于实车训练效率低下且成本高昂,所以当前自动驾驶系统一般都是现在设计好的模拟器中进行训练,然后再迁移到实车上。但模拟器中的驾驶环境与真实的驾驶环境总是存在各种各样的差异,可能导致训练好的自动驾驶系统在模拟器中的表现优异,但在真实环境中的效果却差强人意。
最后,也是非常现实的一点,那就是强化学习需要消耗大量的计算资源,如果针对不同规格的车辆都要求重新学习自动驾驶系统的话,这无疑是非常低效且消耗资源的。
以上这些都导致我们很难使用单纯的强化学习方法来从零开始学得健壮的、可靠的、安全的行车策略。
元学习中模型的目标是“学习如何学习”,以此使智能体能够快速适应不同的任务。在实际场景中由于动力学系统上的不同,仅仅使用强化学习得到的最优策略的泛化性能有限。以自动驾驶为例,在一辆小轿车上可以完美运行的自动驾驶系统,将其移植到一辆面包车上可能会由于车辆长宽及高度等变化而导致系统做出不安全的决策。此外,车辆的刹车距离等属性可能会随着时间的推移而发生变化,使用元强化学习可以使汽车及时适应这种变化。 PEARL(Probabilistic Embeddings for Actor-critic ReinforcementLearning)是目前为止效果最好的元强化学习算法,可以简单的将PEARL看成两部分,一部分是任务编码部分,可以将与任务交互产生的数据编码,表示相应的任务,然后基于此编码在对应任务下使用常规强化学习算法解决任务,在测试时,智能体可以根据编码器的结果意识到当前任务时哪一个,并采取相应的策略。然而,PEARL也存在不足,本发明便对其编码部分做了创新性的改进,并使用改进后的算法解决自动驾驶领域的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356309.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于加热不燃烧卷烟的相变降温材料及其制备方法
- 下一篇:加压湿法消解装置