[发明专利]一种基于深度Q学习的自动驾驶换道决策方法有效
申请号: | 202110954994.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113734170B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 崔建勋;要甲 | 申请(专利权)人: | 崔建勋 |
主分类号: | B60W30/18 | 分类号: | B60W30/18;B60W60/00;B60W50/00;G06N3/0499;G06N3/06;G06N3/092 |
代理公司: | 哈尔滨市松花江联合专利商标代理有限公司 23213 | 代理人: | 张利明 |
地址: | 150090 黑龙江省哈尔滨市*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 自动 驾驶 决策 方法 | ||
1.一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,包括:
步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;
步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;
步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;
步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。
2.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的环境向量包括:同向车道的环境车辆与目标自动驾驶车辆的相对位置和相对速度,当环境为同向为三车道时表示为:
s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]
其中,s为环境向量,dr,vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对速度,其角标第一个字母l,c,r分别表示左侧车道、当前车道和右侧车道,第二个字母q,f分别表示前方车辆、后方车辆;vRL表示目标自动驾驶车辆的速度。
3.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。
4.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,骤二中,获得所有换道动作的Q值估计值方法为:
利用奖励函数对驾驶速度进行拟合;
所述奖励函数为:rt=-|vRL,t-vdes,t|
当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;
利用奖励函数计算当前时刻的Q值估计值yt:
其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向量,θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q值的估计值。
5.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,当前时刻安全动作集合为:
其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的安全行驶空间,为自动驾驶车辆左侧车道在时刻t的安全行驶空间,为自动驾驶车辆右侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a表示当前时刻的换道动作,A为换道动作集合,
A={a1=向左换道,a2=保持当前车道,a3=向右换道},[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔建勋,未经崔建勋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954994.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:路面铺设装置
- 下一篇:一种汽车变速器中间轴推力轴承调整垫片测量选垫设备