[发明专利]一种基于深度强化学习优先提取的汽车纵向多态控制方法有效
申请号: | 202110267799.0 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112861269B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 黄鹤;吴润晨;张峰;王博文;于海涛;汤德江;张炳力 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/17;G06F30/27;G06F119/14 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 优先 提取 汽车 纵向 控制 方法 | ||
1.一种基于深度强化学习优先提取的汽车纵向多态控制方法,其特征包括以下步骤:
步骤1:建立车辆动力学模型和车辆行驶环境模型;
步骤2:采集真实驾驶场景中汽车行驶数据并作为初始化数据,所述汽车行驶数据为车辆的初始状态信息以及车辆的初始控制参数信息;
步骤3:定义车辆的状态信息集s={s0,s1,···st,···,sn},s0表示车辆的初始状态信息,st表示车辆在状态st-1即t-1时刻执行控制动作at-1之后所达到的状态,且有st={Axt,et,Vet},其中,Axt表示在t时刻车辆的纵向加速度,et表示在t时刻前车车速与两车相对距离的差值,Vet表示在t时刻自身车速与前车车速的差值;
定义车辆的控制参数集a={a0,a1,···,at,···,an},a0表示车辆的初始控制参数信息,at表示车辆在状态st即t时刻车辆所执行的动作,且有at={Tt,Bt},其中,Tt表示在车辆在t时刻的节气门开度,Bt表示车辆在t时刻的主缸压力,t=1,2,···,c,c表示训练总时长;
步骤4:初始化参数,包括时刻t,贪婪概率ε-greedy,经验池大小ms,目标网络更新频率rt,优先提取数据条数bs,奖励衰减因子γ;
步骤5:构建深度神经网络,并随机初始化神经网络的参数:权重w,偏置b;
所述深度神经网络包含输入层、隐藏层、输出层;其中,所述输入层包含m个神经元,用于输入车辆在t时刻的状态st,所述隐藏层包含n个神经元,并利用激活函数Relu计算来自输入层的状态信息并传输给输出层,所述输出层包含k个神经元,用于输出动作值函数,并有:
Qe=Relu(Relu(st×w1+b1)×w2+b2) (1)
式(1)中,w1、b1为隐藏层的权重与偏置值,w2、b2为输出层的权重与偏置值,Qe为输出层的输出值即经过所述深度神经网络得到的所有动作的当前Q值;
步骤6:定义深度强化学习的奖励函数:
式(2)和式(3)中,rh为车辆高速状态下的奖励值,rl是车辆低速状态下的奖励值,dis为自身车辆与前车的相对距离,Vf为前车车速,x表示相对距离下限,y表示相对距离上限,mid表示奖励函数关于相对距离的切换阈值,lim表示奖励函数关于自身车速与前车车速差值的切换阈值,z表示奖励函数关于前车车速的切换阈值,u表示前车车速下限;
步骤7:定义经验池优先提取规则;
对经验池中所存储的当前Q值Qe与目标Q值Qt做差,并根据SumTree算法用其差值来对经验池中所存储的各条参数形式进行优先级排序,得到排序后的参数形式并从中提取前bs条参数形式;
利用式(4)得到所提取的前bs条参数形式的权重ISW:
式(4)中,pk为任意第k条参数形式的优先级值,min(p)为所提取的前bs条参数形式中优先级最小值,β为权重增长系数,其取值随提取次数的增加逐渐从0向1收敛;
步骤8:定义贪婪策略;
生成0-1之间的随机数η,判断η≤ε-greedy是否成立,若是,则选择Qe中最大Q值所对应的动作为车辆执行动作,否则,则随机选择一动作为车辆执行动作;
步骤9:创建经验池D,用于存储车辆在每个时刻的状态、动作、奖励信息;
在t时刻的状态st经由所述深度神经网络得到所有动作值函数,并利用贪婪策略选择动作at后由车辆执行;
车辆在t时刻的状态st下执行动作at得到t+1时刻的状态参数st+1以及t时刻的奖励值rt,将各个参数以一条参数形式{st,at,rt,st+1}存储入经验池D中;
步骤10:构建与所述深度神经网络结构相同的目标神经网络;
利用优先提取规则从经验池D中获取bs条参数形式,并将其中t+1时刻状态st+1输入目标神经网络,并有:
Qne=Relu(Relu(st+1×w1′+b1′)×w2′+b2′) (5)
式(5)中,Qne为目标神经网络输出层的输出值即经过所述目标神经网络得到的所有动作的Q值;w1′、w2′分别为目标神经网络的隐藏层和输出层的权重,b1′、b2′分别为目标神经网络的隐藏层和输出层的偏置;
步骤11:建立目标Q值Qt;
利用式(6)定义在状态s时所执行的动作a的概率分布π(a|s):
π(a|s)=P(at=a|st=s) (6)
式(6)中,p表示条件概率;
利用式(7)得到状态价值函数vπ(s):
vπ(s)=Eπ(rt+γrt+1+γ2rt+2+···|st=s) (7)
式(7)中,γ为奖励衰减因子,Eπ表示期望;
利用式(8)得到在t时刻执行动作at转到下一个状态s′的概率
利用式(9)得到动作价值函数qπ(s,a):
式(9)中,表示车辆在状态s执行动作a后的奖励值,vπ(s′)表示车辆在状态s′时的状态价值函数;
利用式(10)得到目标Q值Qt:
Qt=rt+γmax(Qne) (10)
步骤12:利用式(11)构建损失函数loss:
loss=ISW×(Qt-Qe)2 (11)
对损失函数loss实行梯度下降法,从而更新所述深度神经网络参数w1、w2、b1、b2;
以更新频率rt更新所述目标神经网络的参数w1′、w2′、b1′、b2′,且更新值取自所述深度神经网络;
步骤13:将t+1赋值给t后,判断t≤c是否成立,若成立,则返回步骤9继续训练,否则,判断loss值是否逐渐下降且趋于收敛,若是,则表示得到训练好的深度神经网络,否则,令t=c+1,且增加网络迭代次数,并返回步骤9执行;
步骤14:车辆实时状态参数信息输入训练好的深度神经网络并得到输出动作,从而对车辆执行相应动作,以完成纵向的多态控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110267799.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种加沙装置
- 下一篇:功率变换器及其供电控制方法和电源控制芯片