[发明专利]一种基于深度Q学习的自动驾驶换道决策方法有效

专利信息
申请号: 202110954994.0 申请日: 2021-08-19
公开(公告)号: CN113734170B 公开(公告)日: 2023-10-24
发明(设计)人: 崔建勋;要甲 申请(专利权)人: 崔建勋
主分类号: B60W30/18 分类号: B60W30/18;B60W60/00;B60W50/00;G06N3/0499;G06N3/06;G06N3/092
代理公司: 哈尔滨市松花江联合专利商标代理有限公司 23213 代理人: 张利明
地址: 150090 黑龙江省哈尔滨市*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 自动 驾驶 决策 方法
【权利要求书】:

1.一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,包括:

步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;

步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;

步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;

步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。

2.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的环境向量包括:同向车道的环境车辆与目标自动驾驶车辆的相对位置和相对速度,当环境为同向为三车道时表示为:

s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]

其中,s为环境向量,dr,vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对速度,其角标第一个字母l,c,r分别表示左侧车道、当前车道和右侧车道,第二个字母q,f分别表示前方车辆、后方车辆;vRL表示目标自动驾驶车辆的速度。

3.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。

4.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,骤二中,获得所有换道动作的Q值估计值方法为:

利用奖励函数对驾驶速度进行拟合;

所述奖励函数为:rt=-|vRL,t-vdes,t|

当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;

利用奖励函数计算当前时刻的Q值估计值yt

其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向量,θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q值的估计值。

5.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,当前时刻安全动作集合为:

其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的安全行驶空间,为自动驾驶车辆左侧车道在时刻t的安全行驶空间,为自动驾驶车辆右侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a表示当前时刻的换道动作,A为换道动作集合,

A={a1=向左换道,a2=保持当前车道,a3=向右换道},[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔建勋,未经崔建勋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110954994.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top