[发明专利]适用于环岛场景的无人驾驶控制系统和控制方法有效
申请号: | 202011482837.6 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112644516B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 张羽翔;李鑫;丛岩峰;王玉海;高炳钊 | 申请(专利权)人: | 吉林大学青岛汽车研究院 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W50/00;G06N3/08 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 顾云义 |
地址: | 266000 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 环岛 场景 无人驾驶 控制系统 控制 方法 | ||
1.适用于环岛场景的无人驾驶控制方法,通过适用于环岛场景的无人驾驶控制系统实现,所述控制系统包括感知认知模块、驾驶控制模块和轨迹控制模块;其特征在于,
所述感知认知模块,用于获得当前车辆以及环境车辆行驶状态信息,并进行信号处理;
所述驾驶控制模块,用于学习合适的决策参数值;
所述轨迹控制模块,用于得到优化规划后的可行轨迹;
所述控制方法包括以下步骤,
步骤一,马尔科夫驾驶决策过程状态与动作设计;
驾驶决策基于强化学习方法建模为马尔科夫决策过程,包含表征影响智能体驾驶决策因素的状态向量S、可增强智能体决策智能的精细化决策的动作向量A的设计;
步骤二,Actor的网络框架设计;
在强化学习Actor-Critic框架中,Actor依据状态向量选择动作,即表征驾驶决策;状态向量包含环境表征和任务表征两部分;通过Actor的网络框架的重设计,使得状态向量在不同阶段具有不同的策略,达到平衡环境表征和任务表征不同维数,使得智能车辆在环岛中行驶时可以准确的识别不同情况的驾驶环境并准确完成驾驶任务;
步骤三,回报函数设计;
智能体在环境中依据状态向量S选择动作A,得到回报信号,并依据回报信号对策略进行更新;
步骤一的马尔科夫驾驶决策过程状态与动作设计中,包括以下步骤,
第一步,状态变量设计;
状态变量在强化学习算法中用于动作选择以及值函数估计,包括本车与周车相对状态相关的环境表征、以及与本车驾驶任务相关的任务表征两部分的状态变量设计,环境表征用于智能体完成安全决策,任务表征用于智能体完成驾驶任务;
第二步,动作变量设计;
在决策层考虑多层面的驾驶行为;表征本车的驾驶决策的动作向量A,包含离散的宏观驾驶行为,为终端相对于本车道中心线的侧向偏移Ty,以及连续的中微观驾驶行为,为加入决策变量期望加速度atar,动作时间ta;终端相对于本车道中心线的侧向偏移Ty∈{-L,0,L},分别代表左换道,车道保持,右换道;L为相邻两车道的距离;然后通过动作向量A=(Ty,atar,ta)T综合表征驾驶决策,作为输入变量输入下层的轨迹规划层和车辆控制层;
第一步的状态变量设计中;对于环境表征,在环岛中,周车中一部分与本车相邻,为直接接触交互的,并需要注意的车辆;这些车辆的位置是P1,P2,....,P7;k时刻这些位置车辆的相对车道ΔLn(k),相对速度Δvn(k),加速度an(k),相对距离dn(k),驾驶意图In(k)被考虑在环境表征中,下标n对应的是所处的位置编号Pn处的车辆信息;这里相对车道ΔLn(k)由ΔLn(k)=Ln(k)-Lh(k)计算得到,其中Ln(k),Lh(k)分别为k时刻Pn处车辆的车道以及本车车道;相对速度Δvn(k)由Δvn(k)=vn(k)-vh(k)计算得到,其中vn(k),vh(k)分别为k时刻Pn处车辆的速度以及本车速度;驾驶意图In(k)∈{-1,0,1}分别表示k时刻Pn处车辆有左换道,车道保持,和右换道的意图;与此同时,人类驾驶员根据周围车辆的状态做决策,且根据某一车道上的车流信息,选择一个通畅的车道,减少堵车停顿的概率;近域前后方车流,如位置P8,P9,....,P12,作为另一部分的环境表征;位置P8,P9,....,P12的状态由k时刻车流的平均相对车速平均车头时距表示。这里k时刻Pn处的车辆j与前车的车头时距为THn,j(k)=dn,j(k)/vn,j(k),其中dn,j(k),vn,j(k)分别为k时刻车辆j与前车的相对距离和车辆j的车速;则k时刻,位置P1,P2,....,P7处每个位置Pn的状态变量表示为式(1),
SPn(k)=(Fn(k),ΔLn(k),Δvn(k),an(k),dn(k),In(k))T, (1)
其中Fn∈{1,0}表示相应的位置是否是一个可行的车道;k时刻,位置P8,P9,....,P12状态变量处的状态变量表示为式(2),
则k时刻,环境表征表示为式(3),
对于任务表征,在环岛中,所述驾驶控制模块完成路线导航规划中的设定驾驶任务,使得智能车辆从某一入口驶入环岛后从另一出口驶出;则k时刻,本车相对于出口的相对纵向距离Δlh(k)以及相对车道ΔLh(k)在任务表征中;本车相对于出口的相对纵向距离Δlh(k)表示为式(4),
其中Δαh(k),DE,Dh(k),αE,αh(k)分别为k时刻本车相对于出口位置E的圆心角,出口位置E以及本车k时刻所在车道的直径,出口位置E以及本车k时刻位置的所对应的圆心角;相对车道ΔLh(k)=LE-Lh(k),其中LE,Lh(k)分别为出口位置E以及本车k时刻所在的车道;则k时刻,任务表征(TR)表示为式(5),
STR(k)=(Δlh(k),ΔLh(k))T. (5)
然后,采用以上设计的环境表征和任务表征联合表征状态向量S。
2.如权利要求1所述的适用于环岛场景的无人驾驶控制方法,其特征在于,步骤三的回报函数设计中,依据为安全性回报rs,任务性回报rt,执行性回报re三个层面;k时刻安全性回报rs(k)依据本车道Lh(k)的车辆和目标车道Ltar(k)=Lh(k)+sign(Ty(k))的车辆与本车的距离,其中sign(Ty(k))为k时刻本车选择的左右换道动作;同时也包括在未来5S内将会换入这两个车道的车辆;当终端相对于本车道中心线的侧向偏移Ty(k)=0时,本车进行车道保持动作,此时,只有本车前方P4位置的车辆需要考虑;当终端相对于本车道中心线的侧向偏移Ty(k)<0时,则需要考虑P1,P2,P3,P4四个位置的车辆;假设k时刻位置Pn处的与本车在车道方向的距离为dn(k),则此时刻安全性回报rs(k)可以增量式的被计算为式(6),
其中de为危险距离,dc为碰撞距离;
k时刻任务性回报rt(k)从以下三个方面来计算,第一方面为智能车对于出环岛驾驶任务的最终完成情况,增量式的计算为式(7),
其中|Δlh(k)|=|(αE-αh(k))DE|为本车距离出口E在车道上的纵向距离,αE,αh(k),DE分别为出口位置E,k时刻本车相对于出口位置E的圆心角,以及出口位置E所在车道的直径。相对车道ΔLh(k)=LE-Lh(k),LE,Lh(k)出口位置E以及k时刻本车所在的车道;
第二方面与智能车不同位置的决策相关,由于内侧车道具备更高的通行效率,因此车辆倾向于选择内侧的车道以更快的通过环岛,则k时刻期望的相对车道ΔLexp(k)计算为式(8),
其中αE,αlc分别为出口位置E以及完成一次换道操作需要的圆心角,为向下取整运算符号,相对车道ΔLh(k)=LE-Lh(k),LE,Lh(k)出口位置E以及k时刻本车所在的车道;则k时刻另一部分任务性回报rt(k)增量式的计算为式(9),
其中,ΔLexp(k)k时刻期望的相对车道,Ty(k)为终端相对于本车道中心线的侧向偏移;同时,当车辆选择换道决策行为时,对目标车道Ltar(k)和本车道Lh(k)的前车和车流情况进行对比;假设需要对比的前方车辆为位置P1,P4,则需要对比的车流情况为位置为P8,P9,则回报计算为式(10a)、(10b)、(10c)和(10d),
其中,v1(k),v4(k),TH1(k),TH4(k),d1(k),d4(k),分别为k时刻位置P1,P4车辆速度,距离本车的车头时距,纵向距离,k时刻位置P8,P9的车流的平均时距;
k时刻最后一部分任务性回报rt(k)增量式的计算为式(11),
rt(t)=rt(t)+k1rt,1+k2rt,2+k3rt,3+k4rt,4 (11)
其中k1,k2,k3,k4分别为参数;
最后为k时刻执行性回报re(k)如式(12),
其中,k5,k6分别为参数,LT为环岛内的总车道数,Lh(k)k时刻本车车道,Ty(k)为终端相对于本车道中心线的侧向偏移;
最后,k时刻回报r(k)为式(13),
r(t)=rs(t)+rt(t)+re(t) (13)
其中,rs(t),rt(t),re(t)分别为k时刻安全性回报rs(k),任务性回报rt(k),执行性回报re(k)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学青岛汽车研究院,未经吉林大学青岛汽车研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482837.6/1.html,转载请声明来源钻瓜专利网。