[发明专利]一种基于深度强化学习的拟人化自动驾驶跟驰模型有效

申请号：	201910014636.4	申请日：	2019-01-08
公开（公告）号：	CN109733415B	公开（公告）日：	2020-08-14
发明（设计）人：	王雪松;朱美新;孙平	申请（专利权）人：	同济大学
主分类号：	B60W50/00	分类号：	B60W50/00;G06N3/04;G06N3/08
代理公司：	上海科律专利代理事务所(特殊普通合伙) 31290	代理人：	叶凤
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于深度强化学习的拟人化自动驾驶跟驰模型，应用于自动驾驶跟驰控制领域。基于上海自然驾驶实验数据，将选取的快速路跟驰数据集分为训练数据和验证数据。使用深度确定性策略梯度(DDPG)深度强化学习方法，通过构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互，选取评价指标，设置奖励函数，选择神经网络结构，设置神经网络更新策略及超参数，设置探索策略，构建深度强化学习的拟人化跟驰模型。通过训练并测试模型，进一步优化模型。本发明模型在轨迹复现和泛化能力方面超越了传统跟驰模型和近期数据驱动跟驰模型，在模仿人类跟驰行为方面具有更高的优越性。
搜索关键词：	一种基于深度强化学习拟人化自动驾驶模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度强化学习的拟人化自动驾驶跟驰模型，其特征在于，步骤如下：步骤1：采集手动驾驶阶段的数据，作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段，从中随机选择一部分作为为训练数据，剩余部分作为验证数据。步骤2：使用深度确定性策略梯度(DDPG)深度强化学习方法，构建拟人化跟驰模型。步骤2.1：构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入，后车速度、相对距离和相对速度用经验数据初始化，由RL智能体计算加速度，根据强化学习定义的状态更新规则迭代生成后车的未来状态，将仿真环境中的车间距、速度与SH‑NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数，计算奖励值和模拟误差，当仿真车辆跟随事件在其最大时间步骤终止时，状态用经验数据集重新初始化。步骤2.2：选取评价指标，设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标，采用间距和速度差异作为奖励函数的DDPG模型。S_n‑1(t)和V_n(t)表示时间步t时的仿真环境中的模拟间距和速度，和表示时间步t时的实际数据集中观察到的间距和速度。公式如下：步骤2.3：选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络)，演员和评论家网络有三层：输入层，输出层和包含30个神经元的隐层。在时间步长t内，演员网络将一个状态s_t＝(v_n(t),△v_n‑1,n(t),△S_n‑1,n(t))作为输入，并输出一个连续动作：后车加速度a_n(t)。评论家网络采用状态s_t和动作a_t作为输入，并输出状态动作价值Q(s_t,a_t)。其中，S_n‑1,n(t)和v_n(t)是时间步长t时的仿真环境中的模拟间距和速度。步骤2.4：设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数，并采用自适应学习算法Adams。演员网络参数更新如下：演员输出的加速度被传递给评论网络，计算梯度传递给演员网络，并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1所示。步骤2.5：设置探索策略。采用Omstein‑Uhlenbeck过程(产生以零为中心的时间相关值，从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程，形成探索策略。Omstein‑Uhlenbeck过程产生以零为中心的时间相关值，从而在物理环境中进行良好的探索。步骤3：训练模型。基于一个驾驶员的训练数据集对模型进行训练，保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟，事件间切换时根据经验数据对状态进行初始化，一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练，并且选择产生最小训练和测试误差综合的模型作为最终模型。步骤4：测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证，其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集，对模型重复验证，驾驶员间验证误差用来评价模型的泛化能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910014636.4/，转载请声明来源钻瓜专利网。

上一篇：一种续驶里程的确定方法、装置及车辆
下一篇：一种轨道交通专用紧急报警系统及其控制方法

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W50-00 不与某一特定子系统的控制相关联的道路车辆驾驶控制的控制系统的零部件
B60W50-02 .控制系统故障时确保安全的，例如，通过诊断、防止或修理故障
B60W50-04 .监测控制系统的效能的
B60W50-06 .改善控制系统的动态响应，例如，改善调节速度或避免振荡或过冲
B60W50-08 .在驾驶员与控制系统之间的人机交流
B60W50-10 ..驾驶员请求或命令的译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的拟人化自动驾驶跟驰模型有效

专利文献下载