[发明专利]一种基于最大熵强化学习框架的无人驾驶车道保持方法有效

申请号：	202110375328.1	申请日：	2021-04-08
公开（公告）号：	CN113276852B	公开（公告）日：	2022-09-23
发明（设计）人：	俞扬;詹德川;周志华;余峰;陈雄辉;罗凡明;张云天;管聪	申请（专利权）人：	南京大学
主分类号：	B60W30/12	分类号：	B60W30/12;B60W60/00;B60W40/00;G06N3/04
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于最大强化学习框架无人驾驶车道保持方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法，包括：(1)创建无人车仿真道路环境；设置环境车行驶策略和行人的运动模型，设计奖励函数以及碰撞检测条件；(2)利用深度神经网络近似状态值函数、动作值函数以及策略，并初始化网络参数；(3)获得无人车初始状态，使其与环境交互，收集数据，并存储到缓冲池；(4)对状态值函数网络、动作值函数网络以及策略网络进行更新；(5)对目标值函数网络进行更新，直到策略网络将近收敛；(6)将状态值网络优化目标中熵项系数置零，继续训练直到策略网络完全收敛；(7)对于训练好的策略模型，根据网络输出的动作概率分布，选择概率值最大的动作给无人车执行。

技术领域

本发明涉及一种基于最大熵强化学习框架的无人驾驶车道保持方法，基于最大熵强化学习算法的思想，实现了在各类复杂多变路况下，对无人车进行自主车道保持，属于无人车深度强化学习技术领域。

背景技术

无人车包括环境感知、规划决策和车辆控制三个模块，其中规划决策阶段依据环境感知阶段采集的信息决定当前条件下应该采取的行动(包括跟驰、换道的选择，多车交互情况下的决策等)，其内部决策算法的优劣决定着智能汽车的“驾驶水平”，因此又被称为智能汽车的“驾驶脑”。现有的决策系统采用的是基于逻辑规则的算法，能解决简单场景下的车辆行为决策，比如高速公路上的车辆跟驰。但这种算法往往过于保守，侧重安全而牺牲了效率。并且考虑到实际交通环境的复杂性，比如交织区、无信号交叉口等，面对交通环境中诸多交通参与者，如何在保证安全的前提下实现提高效率的行为决策，成为进一步实现完全自动驾驶的症结所在。

近年来深度强化学习技术取得了极大的进步，深度强化学习不同于传统的监督学习或者非监督学习，以试错的方式与环境进行交互，获取最大的累积奖赏，是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域，智能交通、电商推荐系统等领域都取得了较广泛的应用。

在现有的强化学习方法中，SAC是一种基于最大熵强化学习框架的免模型方法。在最大熵强化学习框架下，无人车更加倾向于随机策略，探索效率得到很大的提高，因此SAC有效解决了以往强化学习算法采样效率低和对超参敏感等问题。然而基于SAC的无人车决策，在模型推理阶段，由于使用的随机性策略，导致无人车在相同的状态下每次决策都有可能不一样，这使得模型的鲁棒性变差。

发明内容

发明目的：为了解决基于SAC的无人车决策中模型不够稳定的问题，本发明提供一种基于最大熵强化学习框架的无人驾驶车道保持方法。本发明在SAC算法的基础上做了些改进，对于训练阶段，在目标状态值网络将近收敛时去掉优化目标中的熵项以减小探索，鼓励利用已经学到的策略；对于使用阶段，根据策略网络输出的动作概率分布，选择概率值最大的动作给无人车执行。本发明在利用SAC加快模型训练时间的同时，又能保证无人车在环境中具有可靠稳定的性能。

技术方案：一种基于最大熵强化学习框架的无人驾驶车道保持方法，搭建无人车环境模拟器，在训练初始阶段基于最大熵强化学习框架使用SAC算法训练无人车控制策略模型，在训练后期，去除目标状态值网络优化目标中的熵项以减小探索，鼓励利用已经学到的策略；在推理阶段，对于训练好的策略模型，基于贪心算法使用确定性的策略。具体地，包括以下步骤：

步骤1，创建无人车模拟环境，包含环境车、行人以及各类交通设施；定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长；设置无人车的起始点、目标点以及给定的规划路径；设置环境车行驶策略和行人的运动模型；设置无人车分别与环境车、行人和路障的碰撞条件等。

步骤2，初始化状态值函数网络V_ψ(s_t)、目标状态值函数网络两个动作值函数网络策略网络π_φ(a_t|s_t)以及重放缓冲池D。

步骤3，在无人车模拟环境中，获得无人车观测到的初始状态s₀；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110375328.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W30-00 不与某一特定子系统的控制
B60W30-02 .车辆驾驶稳定性的控制
B60W30-06 .用于驻车的自动操作
B60W30-08 .预测或避免可能的或即将到来的碰撞的
B60W30-10 .路线保持
B60W30-14 .巡航控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于最大熵强化学习框架的无人驾驶车道保持方法有效

专利文献下载