[发明专利]一种融合深度强化学习的自主换道方法及系统有效
| 申请号: | 202111114372.3 | 申请日: | 2021-09-23 |
| 公开(公告)号: | CN113682312B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 丁华杰;卜祥津;张飞 | 申请(专利权)人: | 中汽创智科技有限公司 |
| 主分类号: | B60W30/18 | 分类号: | B60W30/18;B60W40/00;B60W40/105;G06N3/0464;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
| 地址: | 211100 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 深度 强化 学习 自主 方法 系统 | ||
本发明公开了一种融合深度强化学习的自主换道方法及系统,包括在训练环境中训练深度强化学习模型,得到并保存训练参数;在所述训练环境中,添加按照基于规则的自动驾驶策略行驶的目标车辆的信息;根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数;根据所述评价函数,判断所述目标车辆的信息是否满足仲裁条件;若满足,则将所述训练参数融合到所述目标车辆的信息,控制所述目标车辆行驶;若不满足,则仍按照所述基于规则的自动驾驶策略,控制所述目标车辆行驶。本发明融合深度强化学习与基于规则的自动驾驶策略,在未建模的环境中,免去大量遍历换道场景进行建模的工作,提升适用性、决策准确性、决策效率和驾驶安全性。
技术领域
本发明涉及自动驾驶决策规划技术领域,尤其涉及一种融合深度强化学习的自主换道方法及系统。
背景技术
近年来自动驾驶技术迅猛发展,给人们的生活及工作带来了极大的方便;而高级别的自动驾驶功能,比如自主超车、自动辅助导航驾驶等,都需要自主变道的子功能,然而城市交通状况的复杂多变,给自主变道的开发带来了极大的挑战。
目前针对此问题的主流做法是,通过制定规则的方式定义出不同的场景,在不同的场景下制定不同换道算法及参数,根据探测到相邻车辆及交通参与体的信息,使车辆跟随规划出的换道曲线,在保证安全的前提下更加快速、平稳的变换到目标车道;然而,现实中换道的场景不可能完全被建模,车辆遇到没有定义的场景或是复杂场景的时候,便无法实现自主变道,甚至出现误变道,影响城市交通,危害驾乘人员的安全。
因此,需要一种融合深度强化学习的自主换道方法及系统,无需对真实道路场景进行建模即可实现自主换道决策,免去大量遍历换道场景进行建模的步骤,提升适应性与决策效率。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种融合深度强化学习的自主换道方法及系统,无需对大量真实道路场景进行建模即可实现自主换道决策,免去大量遍历换道场景进行建模的步骤,提升适应性与决策效率。所述技术方案如下:
一方面,本发明提供了一种融合深度强化学习的自主换道方法,包括:
在训练环境中训练深度强化学习模型,得到并保存所述深度强化学习模型的训练参数;
在所述训练环境中,添加按照基于规则的自动驾驶策略行驶的目标车辆的信息;
根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数;
根据所述评价函数,判断所述目标车辆的信息是否满足仲裁条件;
若满足所述仲裁条件,则将所述训练参数融合到所述目标车辆的信息,得到所述目标车辆的方向盘转角和车速并输出,以控制所述目标车辆行驶;
若不满足所述仲裁条件,则仍按照所述基于规则的自动驾驶策略,得到并输出所述目标车辆的方向盘转角和车速,以控制所述目标车辆行驶。
进一步地,所述深度强化学习模型基于深度学习网络搭建而成,所述深度学习网络为包括四层卷积层和两层全连接层的卷积神经网络,用于提取所述训练环境中的特征。
进一步地,所述深度强化学习模型包括模型策略函数πθ(s,a)和模型评价函数V(st,θV),通过对所述模型策略函数和所述模型评价函数进行梯度下降,使得所述训练参数不断收敛,完成所述深度强化学习模型的训练;
所述深度学习网络对所述模型策略函数进行梯度下降的公式为:
其中,θ为所述卷积神经网络的参数,A(s)为评价策略梯度更新的优势函数,s代表矩阵,a表征训练动作;
所述深度学习网络对所述模型评价函数进行梯度下降的公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中汽创智科技有限公司,未经中汽创智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111114372.3/2.html,转载请声明来源钻瓜专利网。





