[发明专利]适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统有效
申请号: | 202011487360.0 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112550314B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张羽翔;王玉海;丛岩峰;高炳钊;陈虹 | 申请(专利权)人: | 吉林大学青岛汽车研究院 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W50/00;G06N3/04;G06N3/08 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 顾云义 |
地址: | 266000 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 无人驾驶 嵌入 优化 控制 方法 及其 驾驶 模块 自动 控制系统 | ||
本发明公开了适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统,所述学习方法包括驾驶决策问题建立及驾驶策略的表征;神经网络经验模型建立;连续驾驶决策变量求解;离散驾驶决策变量学习;其基于以上实际问题的需求,对于应用场景多变且难以事先获得的包含连续控制的控制问题,可使用基于模型的方法对于强化学习中的动作空间进行有效搜索,并使驾驶策略快速迭代。
技术领域
本发明涉及无人驾驶技术领域,尤其涉及适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统。
背景技术
随着强化学习技术不断发展,其被越来越多的应用到各个问题中。因此,针对于不同控制问题,对强化学习在实际应用时的算法效率进一步地提出了要求。在控制领域,针对连续控制问题,一般而言,无模型的强化学习算法缺乏高的算法效率及算法稳定性。为提高算法效率及稳定性,已有一些强化学习领域的专业方法及技术被提出,例如,异步更新策略,预训练方法,回报整型技术等,同时利用基于模型的优化控制器采样的确定性策略方法具有很高的算法效率及稳定性。
对于例如在人车混合的车辆控制领域的无人驾驶车辆的驾驶决策问题,由于他车行为难以准确预测,且容易发生突然改变。因此,环境中常存在不确定性因素,难以被事先准确预知。而环境一旦发生,智能体受当前策略影响,合适的驾驶策略会区别于常规情况下的驾驶决策。在此种多变的交互环境中,智能体应能自适应地与环境车辆发生交互,相应地快速调整当前驾驶策略。
发明内容
本发明提出适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统,其基于以上实际问题的需求,对于应用场景多变且难以事先获得的包含连续控制的控制问题,可使用基于模型的方法对于强化学习中的动作空间进行有效搜索,并使驾驶策略快速迭代。
本发明一方面提供适用于无人驾驶的嵌入优化式控制方法,其特征在于,包括以下步骤,
步骤一、驾驶决策问题建立及驾驶策略的表征;
基于强化学习方法,将驾驶决策建模为马尔科夫决策过程;基于马尔科夫决策过程的驾驶决策包含表征本车与周车相对状态的状态向量S;以及基于参数化驾驶决策框架,表征本车的驾驶决策的动作向量A;动作向量A包含离散的决策变量,终端相对于本车道中心线的侧向偏移Ty,指向车道保持、左换道、右换道等驾驶行为,以及连续的决策变量,期望加速度atar,动作时间ta;通过动作向量A=(Ty,atar,ta)T表征驾驶决策,并作为输入变量输入下层的轨迹规划层和车辆控制层;车辆控制系统执行驾驶决策后,根据设计的回报函数得到回报信号,作为训练数据;最终通过强化学习算法对驾驶策略进行学习更新;
步骤二、神经网络经验模型建立;
首先,不同连续决策量下轨迹数据的收集:
轨迹规划模块可执行的连续决策量的取值通常在预设范围内;
其次,轨迹特征点提取以及训练数据生成;
在得到的轨迹数据集中,对数据集中的每个轨迹使用若干轨迹特征点表示,这些轨迹特征点分别为纵向参数lx,侧向参数序列ly,1,ly,2,...,ly,5,时间参数序列lt,1,lt,2,...,lt,5;
纵向参数lx可以表示为式(1),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学青岛汽车研究院,未经吉林大学青岛汽车研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011487360.0/2.html,转载请声明来源钻瓜专利网。