[发明专利]适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统有效
申请号: | 202011487360.0 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112550314B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张羽翔;王玉海;丛岩峰;高炳钊;陈虹 | 申请(专利权)人: | 吉林大学青岛汽车研究院 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W50/00;G06N3/04;G06N3/08 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 顾云义 |
地址: | 266000 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 无人驾驶 嵌入 优化 控制 方法 及其 驾驶 模块 自动 控制系统 | ||
1.适用于无人驾驶的嵌入优化式控制方法,其特征在于,包括以下步骤,
步骤一、驾驶决策问题建立及驾驶策略的表征;
基于强化学习方法,将驾驶决策建模为马尔科夫决策过程;基于马尔科夫决策过程的驾驶决策包含表征本车与周车相对状态的状态向量S;以及基于参数化驾驶决策框架,表征本车的驾驶决策的动作向量A;动作向量A包含离散的决策变量,终端相对于本车道中心线的侧向偏移Ty,指向车道保持、左换道、右换道等驾驶行为,以及连续的决策变量,期望加速度atar,动作时间ta;通过动作向量A=(Ty,atar,ta)T表征驾驶决策,并作为输入变量输入下层的轨迹规划层和车辆控制层;车辆控制系统执行驾驶决策后,根据设计的回报函数得到回报信号,作为训练数据;最终通过强化学习算法对驾驶策略进行学习更新;
步骤二、神经网络经验模型建立;
首先,不同连续决策量下轨迹数据的收集:
轨迹规划模块可执行的连续决策量的取值通常在预设范围内;
其次,轨迹特征点提取以及训练数据生成;
在得到的轨迹数据集中,对数据集中的每个轨迹使用若干轨迹特征点表示,这些轨迹特征点分别为纵向参数lx,侧向参数序列ly,1,ly,2,...,ly,5,时间参数序列lt,1,lt,2,...,lt,5;
纵向参数lx可以表示为式(1),
其中sx为纵向位移,vh,0为初始速度,ta为动作时间。纵向参数lx主要受期望加速度atar影响。
在侧向运动中,提取了五个轨迹特征点,计算他们的侧向参数和对应的时间参数组成侧向参数序列ly,1,ly,2,...,ly,5,和时间参数序列lt,1,lt,2,...,lt,5。这些轨迹特征点的纵向位移分别为1/8lx,1/4lx,1/2lx,3/4lx,7/8lx。相应地,第i个侧向参数ly,i和时间参数lt,i可以表示为式(2)和式(3),
其中sy,i,ti分别为第i个轨迹特征点的侧向位移和时间。L为相邻车道侧向位移,ta为动作时间;
最后,神经网络经验模型训练;
使用当前初始速度vh,0,期望加速度atar,动作时间ta作为输入向量,得到的轨迹特征点分别为纵向参数lx,侧向参数序列ly,1,ly,2,...,ly,5,时间参数序列lt,1,lt,2,...,lt,5作为数据集,分别训练三个神经网络;
步骤三、连续驾驶决策变量求解;
智能体强化学习Actor-Critic框架的Actor动作网络根据状态变量S输出决策变量A=(Ty,atar,ta)T,将期望加速度atar,动作时间ta作为初始值输入到基于模型设计的直接搜索算法中,通过训练得到的神经网络根据决策变量模拟本车轨迹的变化,结合周车意图行为及轨迹的预测,最终通过优化求解得到使得性能指标函数最小的连续驾驶决策变量期望加速度atar,动作时间;
步骤四、离散驾驶决策变量学习;
将以上步骤三所述的连续驾驶决策变量的求解方法嵌入强化学习Actor-Critic框架的Actor中。Actor包含步骤一和步骤二的结果,以及步骤三所述的各个步骤,然后进入步骤四开始学习;该学习过程针对离散驾驶决策变量终端相对于本车道中心线的侧向偏移Ty。智能体从环境中读取当前状态向量S,输入到Actor,最终得到动作向量;输入到Critic网络,得到状态值函数的估计值;执行动作得到回报;计算优势函数对Actor和Critic网络进行更新调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学青岛汽车研究院,未经吉林大学青岛汽车研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011487360.0/1.html,转载请声明来源钻瓜专利网。