[发明专利]一种基于深度强化学习的无保护左转弯驾驶控制方法有效
申请号: | 202110773027.4 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113353102B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 赵敏;孙棣华;陈进 | 申请(专利权)人: | 重庆大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;G06N3/04;G06N3/08 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 保护 转弯 驾驶 控制 方法 | ||
本发明公开了一种基于深度强化学习的无保护左转弯驾驶控制方法,所述方法步骤如下:1.建立仿真及训练环境,其具体方法为:1)构建两个相同的封闭道路环境模拟场景;2)设置适当的模拟运行时间,生成任意数量的无保护LTAP/OD事件;3)设置多辆直行车辆和三条左转车辆候选路径;2.设计奖励函数,采用人类驾驶员的驾驶技巧处理复杂的无保护LTAP/OD事件;3.设计策略结构,使用学习算法更新深度卷积模糊系统的参数,寻找最优值函数;4.设计学习算法,采用人类驾驶员的数据和深度卷积模糊系统算法提高训练效率。人类驾驶员的驾驶技巧与深度卷积模糊系算法的结合,有效地提高了深度强化学习算法的可解释性、训练效率的纠错能力和车辆的通行效率。
技术领域
本发明属于中高级自动驾驶汽车的运动控制领域,尤其涉及一种训练用于生成自动驾驶策略的无保护左转弯控制模型的方法。
背景技术
在没有交通信号或其它停车标志引导的十字路口,直行车辆(SDV)与左转车辆(TV)相向行驶的场景(LTAP/OD,图1),高效安全地完成无保护左转弯,不仅对自动驾驶车辆来说具有很强的挑战性,对人类驾驶员也是如此。现有的自动驾驶汽车在完成无保护左转弯时,更侧重算法的鲁棒性,多以手工定制规则为主,往往采取过于保守的策略,尽管安全性得到了一定的保障,但通行低效率低下。反观有经验的人类驾驶员,他们在处理路权竞争时,主要通过转向、刹车以及加速等车身动作来尝试与直行车辆“谈判”,以期快速完成左转弯。
在模仿人类驾驶策略的研究方面,业内常采用基于深度神经网络的强化学习范式,专利CN110824912B利用高维数据直接获得可用的自动驾驶策略;专利CN112784485A发明一种基于强化学习的自动驾驶关键场景生成方法;专利CN108009587B发明一种基于强化学习和规则确定驾驶策略的方法与设备。但由于基于深度神经网络模型的不可解释性,极大的限制了模型的训练效率及纠错能力。
发明内容
本发明的目的在于提供一种基于深度卷积模糊系统的强化学习方法,学习人类驾驶员的驾驶技巧,提高通行效率,并且提高深度强化学习算法的可解释性。
为实现上述目标,本发明的技术方案是:一种基于深度强化学习的无保护左转弯驾驶控制方法,其特征在于,包括以下步骤:
步骤(1)建立仿真及训练环境,其具体方法为:
(1.1)构建两个相同的封闭道路环境模拟场景;
(1.2)设置适当的模拟运行时间,生成任意数量的无保护LTAP/OD事件;
(1.3)设置多辆直行车辆(SDV)和三条左转车辆(TV)候选路径;
步骤(2)设计奖励函数,采用人类驾驶员的驾驶技巧处理复杂的无保护LTAP/OD事件;
步骤(3)设计策略结构,使用学习算法更新深度卷积模糊系统的参数,寻找最优值函数;
步骤(4)设计学习算法,采用人类驾驶员的数据和深度卷积模糊系统算法提高训练效率,其具体方法为:
(4.1)设置一个用于记录学习算法的函数Q;
(4.2)使用人类驾驶员的数据初始化函数Q;
(4.3)通过深度卷积模糊系统运算,得到函数Q的新值;
(4.4)使用深度强化学习对函数Q的值进行更新,得到最优解。
在步骤(1)中,所述无保护LTAP/OD事件,其每一个无保护LTAP/OD事件为一个深度强化学习训练回合。
在步骤(2)中,所述奖励函数功能如下:
所述st为t时刻环境的状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773027.4/2.html,转载请声明来源钻瓜专利网。