[发明专利]基于监督式DQN算法的自动驾驶汽车转向控制方法有效
申请号: | 202110577276.6 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113341960B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 汪锋;金书峰;唐小林;张志强;彭颖 | 申请(专利权)人: | 重庆大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 dqn 算法 自动 驾驶 汽车 转向 控制 方法 | ||
1.一种基于监督式DQN算法的自动驾驶汽车转向控制方法,其特征在于,该方法具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:搭建汽车运动学模型;
S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化;
步骤S3中,利用MOBIL算法构建转向角监督信号,具体包括:基于MOBIL算法,选择满足以下条件的车道作为目标车道:
其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,为本车横摆角速度,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As:
对DQN算法进行训练,具体包括以下步骤:
S311:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动模型得到本车的下一状态S′;
S312:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;其中,S为当前状态,A为执行的动作,As为当前状态下的转向角监督信号;
S313:从经验池中随机抽取N个样本进行在线Q网络更新;
S314:每隔M步对目标Q网络进行更新:
θQ′=θQ
其中,θQ为在线Q网络参数,θQ′为目标Q网络参数;
步骤S313中,对在线Q网络的更新方式进行优化,具体包括两个更新目标:
1)使在线Q网络输出的Q值逼近目标Q值;
2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中,k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
其中,lr为Q网络的学习率;
JS为监督部分的损失函数:
其中,为所抽取的第j个经验样本的当前时刻监督信号;
采用梯度上升法计算监督部分的更新公式:
故监督式DQN算法的在线Q网络更新公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110577276.6/1.html,转载请声明来源钻瓜专利网。