[发明专利]一种融合深度强化学习的自主换道方法及系统有效
| 申请号: | 202111114372.3 | 申请日: | 2021-09-23 |
| 公开(公告)号: | CN113682312B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 丁华杰;卜祥津;张飞 | 申请(专利权)人: | 中汽创智科技有限公司 |
| 主分类号: | B60W30/18 | 分类号: | B60W30/18;B60W40/00;B60W40/105;G06N3/0464;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
| 地址: | 211100 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 深度 强化 学习 自主 方法 系统 | ||
1.一种融合深度强化学习的自主换道方法,其特征在于,包括:
在训练环境中训练深度强化学习模型,得到并保存所述深度强化学习模型的训练参数;所述深度强化学习模型采用Actor-Critic算法;
在所述训练环境中,添加按照基于规则的自动驾驶策略行驶的目标车辆的信息;
根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数;确定所述评价函数的公式为:
其中,、、、为相关系数,为纵向加速度,为横向加速度,、为前后车辆与目标车辆的相对时差、相对距离或相对速度;
根据所述评价函数,判断所述目标车辆的信息是否满足仲裁条件;
若满足所述仲裁条件,则将所述训练参数融合到所述目标车辆的信息,得到所述目标车辆的方向盘转角和车速并输出,以控制所述目标车辆行驶;
若不满足所述仲裁条件,则仍按照所述基于规则的自动驾驶策略,得到并输出所述目标车辆的方向盘转角和车速,以控制所述目标车辆行驶。
2.根据权利要求1所述的一种融合深度强化学习的自主换道方法,其特征在于,所述深度强化学习模型基于深度学习网络搭建而成,所述深度学习网络为包括四层卷积层和两层全连接层的卷积神经网络,用于提取所述训练环境中的特征。
3.根据权利要求2所述的一种融合深度强化学习的自主换道方法,其特征在于,所述深度强化学习模型包括模型策略函数和模型评价函数,通过对所述模型策略函数和所述模型评价函数进行梯度下降,使得所述训练参数不断收敛,完成所述深度强化学习模型的训练;
所述深度学习网络对所述模型策略函数进行梯度下降的公式为:
其中,为所述卷积神经网络的参数,为评价策略梯度更新的优势函数,代表矩阵,表征训练动作;
所述深度学习网络对所述模型评价函数进行梯度下降的公式为:
其中,为奖惩值,为贪婪系数,为状态价值函数。
4.根据权利要求3所述的一种融合深度强化学习的自主换道方法,其特征在于,所述在训练环境中训练深度强化学习模型,得到并保存所述深度强化学习模型的训练参数包括:
获取周围环境信息;
将获取的所述周围环境信息压入矩阵,以得到所述目标车辆所处的当前状态;所述当前状态至少包括所述目标车辆的车速的信息和方向盘转角的信息;
将所述当前状态压入数组以表征一个训练动作;
所述目标车辆执行所述训练动作,以进入下一个训练状态;
将所述训练状态作为一个变量,重新返回压入矩阵的步骤,使得所述当前状态不断更新;
当所述当前状态能够满足所述目标车辆在所述训练环境中进行车道保持和自主避障行驶后,将所述当前状态作为最优的所述训练参数保存。
5.根据权利要求1所述的一种融合深度强化学习的自主换道方法,其特征在于,所述基于规则的自动驾驶策略包括:
在所述训练环境中,获取周围环境信息中交通参与者的规则化信息;所述规则化信息至少包括车道线方程、周围车辆信息和限速标识;
根据所述周围车辆信息和所述限速标识,决策所述目标车辆的实时车速,并控制所述目标车辆按照所述实时车速进行行驶;
根据所述车道线方程,控制所述车辆的方向盘跟随规划轨迹进行行驶。
6.根据权利要求5所述的一种融合深度强化学习的自主换道方法,其特征在于,所述基于规则的自动驾驶策略还包括:
当出现自主换道需求时,获取相邻车道信息;
根据所述相邻车道信息,判断是否满足换道条件;
若判断结果为满足换道条件,则规划一条从本车道到目标车道的换道轨迹,并控制所述目标车辆跟随所述换道轨迹进行换道。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中汽创智科技有限公司,未经中汽创智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111114372.3/1.html,转载请声明来源钻瓜专利网。





