[发明专利]一种基于对抗生成模仿学习的自动驾驶控制方法有效

申请号：	202110954992.1	申请日：	2021-08-19
公开（公告）号：	CN113635909B	公开（公告）日：	2022-07-12
发明（设计）人：	崔建勋;曲明成	申请（专利权）人：	崔建勋;曲明成
主分类号：	B60W50/00	分类号：	B60W50/00;B60W60/00;B60W40/02;B60W40/10;B60W40/105;B60W30/12;B60W30/14;B60W30/18
代理公司：	哈尔滨华夏松花江知识产权代理有限公司 23213	代理人：	张利明
地址：	150090 黑龙江省哈尔滨市***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对抗生成模仿学习自动驾驶控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于对抗生成模仿学习的自动驾驶控制方法，属于自动驾驶策略生成技术领域。解决了现有基于学习的自动驾驶决策存在安全性和平稳性差的问题。本发明利用状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器，决策器采用经对抗生成的训练方式训练的深度神经网络，获取目标自动驾驶车辆的决策行为信号；再采用Bezier曲线作驾驶路径规划，获得规划路径；在规划路径上进行等时间间隔抽样，获取采样点，并采用曲线拟合算法，获取每两个采样点间路径的速度和加速度，采用PID控制方法，获得目标自动驾驶车辆的动作控制信号。本发明适用于自动驾驶控制。

技术领域

本发明属于自动驾驶策略生成技术领域。

背景技术

决策是自动驾驶整体技术谱系中的关键一环。一般情况下，自动驾驶的技术模块组成按照顺序包括：感知→全局路径规划→决策→局部运动规划→车辆控制5个环节，其中决策直接决定了后续运动规划和车辆控制的安全性和效率，是自动驾驶承上启下的关键技术环节。

当前自动驾驶决策模块多是采用基于规则的方法来构建，也就是尽可能枚举每一种自动车辆可能遇到的驾驶情景，然后，预先设置好每一种驾驶情境下自动车辆需要执行的决策行为。这种做法存在诸多的弊端：(1)自动驾驶，尤其是开放道路下的自动驾驶，常常面对的交通场景具有高度的动态性、复杂性和不确定性，这使得定义一个相对“完备”的“状态-决策”规则集十分困难，甚至是不可能的；(2)基于规则的决策方法过于“僵硬”，遇到事先没有定义好的情况，自动驾驶车将不知道如何做出决策，有可能造成安全事故或者“停机”状态。

因此，为了克服基于规则的自动驾驶决策带来的问题，另外一种常见的做法是基于学习的方式来构建决策模块，例如较为前沿、常用的是强化学习(尤其是深度强化学习)。基于学习的自动驾驶决策，通过自动驾驶车辆与环境的大量互动，不断的收集“驾驶经验”，从而提高自身的决策制定水平，无需人为事先制定规则集，此外，基于学习的方法，对于训练过程中没有碰到的驾驶情景，天然的具有很好的泛化能力。因此，基于强化学习的自动驾驶决策被认为是一种极具潜力的研究方法。但同时，其也存在一个极其严重的潜在问题，那就是基于学习的自动驾驶决策，无法整合考虑自动驾驶情况下的安全性和平稳性。

发明内容

本发明目的是为了解决现有基于学习的自动驾驶决策存在安全性和平稳性差的问题,提出了一种基于对抗生成模仿学习的自动驾驶控制方法。

本发明所述一种基于对抗生成模仿学习的自动驾驶控制方法，该方法包括：

步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息；

步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息，获取目标自动驾驶车辆所在环境的状态地图；

步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器，决策器采用经对抗生成的训练方式训练的深度神经网络，获取目标自动驾驶车辆的决策行为信号；

步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号，采用Bezier曲线作驾驶路径规划，获得规划路径；

步骤S5、在规划路径上进行等时间间隔抽样，获取采样点，并采用曲线拟合算法，获取每两个采样点间路径的速度和加速度；

步骤S6、利用每两个采样点间路径的速度和加速度，采用PID控制方法，获得目标自动驾驶车辆的动作控制信号。

进一步地，本发明中，步骤S3中，决策器还包括判别器，所述判别器用于在决策器的深度神经网络进行训练；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载