[发明专利]一种基于深度强化学习优先提取的汽车纵向多态控制方法有效

申请号：	202110267799.0	申请日：	2021-03-11
公开（公告）号：	CN112861269B	公开（公告）日：	2022-08-30
发明（设计）人：	黄鹤;吴润晨;张峰;王博文;于海涛;汤德江;张炳力	申请（专利权）人：	合肥工业大学
主分类号：	G06F30/15	分类号：	G06F30/15;G06F30/17;G06F30/27;G06F119/14
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习优先提取汽车纵向控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习优先提取的汽车纵向多态控制方法，其特征包括以下步骤：

步骤1：建立车辆动力学模型和车辆行驶环境模型；

步骤2：采集真实驾驶场景中汽车行驶数据并作为初始化数据，所述汽车行驶数据为车辆的初始状态信息以及车辆的初始控制参数信息；

步骤3：定义车辆的状态信息集s＝{s₀,s₁,···s_t,···,s_n}，s₀表示车辆的初始状态信息，s_t表示车辆在状态s_t-1即t-1时刻执行控制动作a_t-1之后所达到的状态，且有s_t＝{Ax_t,e_t,Ve_t}，其中，Ax_t表示在t时刻车辆的纵向加速度，e_t表示在t时刻前车车速与两车相对距离的差值，Ve_t表示在t时刻自身车速与前车车速的差值；

定义车辆的控制参数集a＝{a₀,a₁,···,a_t,···,a_n}，a₀表示车辆的初始控制参数信息，a_t表示车辆在状态s_t即t时刻车辆所执行的动作，且有a_t＝{T_t,B_t}，其中，T_t表示在车辆在t时刻的节气门开度，B_t表示车辆在t时刻的主缸压力，t＝1,2,···,c，c表示训练总时长；

步骤4：初始化参数，包括时刻t，贪婪概率ε-greedy，经验池大小ms，目标网络更新频率rt，优先提取数据条数bs，奖励衰减因子γ；

步骤5：构建深度神经网络，并随机初始化神经网络的参数：权重w，偏置b；

所述深度神经网络包含输入层、隐藏层、输出层；其中，所述输入层包含m个神经元，用于输入车辆在t时刻的状态s_t，所述隐藏层包含n个神经元，并利用激活函数Relu计算来自输入层的状态信息并传输给输出层，所述输出层包含k个神经元，用于输出动作值函数，并有：

Q_e＝Relu(Relu(s_t×w₁+b₁)×w₂+b₂) (1)

式(1)中，w₁、b₁为隐藏层的权重与偏置值，w₂、b₂为输出层的权重与偏置值，Q_e为输出层的输出值即经过所述深度神经网络得到的所有动作的当前Q值；

步骤6：定义深度强化学习的奖励函数：

式(2)和式(3)中，r_h为车辆高速状态下的奖励值，r_l是车辆低速状态下的奖励值，dis为自身车辆与前车的相对距离，Vf为前车车速，x表示相对距离下限，y表示相对距离上限，mid表示奖励函数关于相对距离的切换阈值，lim表示奖励函数关于自身车速与前车车速差值的切换阈值，z表示奖励函数关于前车车速的切换阈值，u表示前车车速下限；

步骤7：定义经验池优先提取规则；

对经验池中所存储的当前Q值Q_e与目标Q值Q_t做差，并根据SumTree算法用其差值来对经验池中所存储的各条参数形式进行优先级排序，得到排序后的参数形式并从中提取前bs条参数形式；

利用式(4)得到所提取的前bs条参数形式的权重ISW：

式(4)中，p_k为任意第k条参数形式的优先级值，min(p)为所提取的前bs条参数形式中优先级最小值，β为权重增长系数，其取值随提取次数的增加逐渐从0向1收敛；

步骤8：定义贪婪策略；

生成0-1之间的随机数η，判断η≤ε-greedy是否成立，若是，则选择Q_e中最大Q值所对应的动作为车辆执行动作，否则，则随机选择一动作为车辆执行动作；

步骤9：创建经验池D，用于存储车辆在每个时刻的状态、动作、奖励信息；

在t时刻的状态s_t经由所述深度神经网络得到所有动作值函数，并利用贪婪策略选择动作a_t后由车辆执行；

车辆在t时刻的状态s_t下执行动作a_t得到t+1时刻的状态参数s_t+1以及t时刻的奖励值r_t，将各个参数以一条参数形式{s_t,a_t,r_t,s_t+1}存储入经验池D中；

步骤10：构建与所述深度神经网络结构相同的目标神经网络；

利用优先提取规则从经验池D中获取bs条参数形式，并将其中t+1时刻状态s_t+1输入目标神经网络，并有：

Q_ne＝Relu(Relu(s_t+1×w₁′+b₁′)×w₂′+b₂′) (5)