[发明专利]基于监督式DQN算法的自动驾驶汽车转向控制方法有效

申请号：	202110577276.6	申请日：	2021-05-26
公开（公告）号：	CN113341960B	公开（公告）日：	2022-06-03
发明（设计）人：	汪锋;金书峰;唐小林;张志强;彭颖	申请（专利权）人：	重庆大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	杨柳岸
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督 dqn 算法自动驾驶汽车转向控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于监督式DQN算法的自动驾驶汽车转向控制方法，其特征在于，该方法具体包括以下步骤：

S1：获取周边车辆状态信息；

S2：搭建汽车运动学模型；

S3：利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制，并优化Q网络的损失函数，利用MOBIL算法构建转向角监督信号，对DQN算法的训练进行引导和优化；

步骤S3中，利用MOBIL算法构建转向角监督信号，具体包括：基于MOBIL算法，选择满足以下条件的车道作为目标车道：

其中，为本车变道后新车道上相邻后车的加速度，b_safe为最大减速度，为本车变道后的加速度，为本车变道前的加速度，p为礼貌系数，为本车变道前新车道上相邻后车的加速度，为本车变道后原车道上相邻后车的加速度，为本车变道前原车道上相邻后车的加速度，a_th为加速度阈值；

选择目标车道后，根据比例微分控制器计算出当前状态下的转向角δ_s为：

v_ex,lat＝-K_pd_lat

其中，v_ex,lat为横向期望速度，K_p为横向增益系数，d_lat为当前车道与目标车道的横向偏移量，θ_ex为期望航向角，θ_L为目标车道方向角，θ为本车航向角，为本车横摆角速度，K_p,θ为航向角增益系数；

选择与转向角δ_s之差绝对值最小的离散转向角值a_i作为当前状态下的转向角监督信号A_s：

对DQN算法进行训练，具体包括以下步骤：

S311：本车执行动作后，根据奖励函数计算当前状态S下执行该动作的奖励值R，并根据汽车运动模型得到本车的下一状态S′；

S312：设置经验池用于存放本步的经验样本{S,A,R,S′,A_s}，当经验池样本数超过经验池容量后，最早的经验样本将被新的经验样本替换；其中，S为当前状态，A为执行的动作，A_s为当前状态下的转向角监督信号；

S313：从经验池中随机抽取N个样本进行在线Q网络更新；

S314：每隔M步对目标Q网络进行更新：

θ^Q′＝θ^Q

其中，θ^Q为在线Q网络参数，θ^Q′为目标Q网络参数；

步骤S313中，对在线Q网络的更新方式进行优化，具体包括两个更新目标：

1)使在线Q网络输出的Q值逼近目标Q值；

2)使监督信号所对应的Q值尽量大，故监督式DQN算法的在线Q网络的损失函数J_Q为：

J_Q＝kJ_q+(1-k)J_S

其中，k为平衡系数，J_q为传统DQN算法在线Q网络的损失函数：

其中：

y_j＝r_j+γmaxQ′(s_j+1；θ^Q′)

其中，y_j为目标Q值，s_j、a_j、r_j、s_j+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态，Q(s_j,a_j；θ^Q)为在线Q网络输出的Q值，γ为衰减系数，Q′(s_j+1；θ^Q′)为目标Q网络输出的Q值；

采用梯度下降法计算传统DQN算法在线Q网络的更新公式：

其中，l_r为Q网络的学习率；

J_S为监督部分的损失函数：

其中，为所抽取的第j个经验样本的当前时刻监督信号；

采用梯度上升法计算监督部分的更新公式：

故监督式DQN算法的在线Q网络更新公式为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110577276.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载