[发明专利]一种基于深度强化学习的单点交叉口信号配时优化方法在审

申请号：	201810902305.X	申请日：	2018-08-09
公开（公告）号：	CN109215355A	公开（公告）日：	2019-01-15
发明（设计）人：	陈鹏;朱泽茂;鲁光泉;王云鹏;余贵珍	申请（专利权）人：	北京航空航天大学
主分类号：	G08G1/08	分类号：	G08G1/08;G06F17/50
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法，旨在通过实际道路数据，利用深度强化学习对单点交叉口进行仿真配时优化，并最终将仿真方案应用于实际道路，该方法克服了现有自适应信号配时方法的弊端，提供了一种可以进行高维输入，快速收敛的一种新颖算法。在实施本方法的过程中，首先对原始原始数据进行矩阵化处理，通过经验回放策略随机抽取输入数据，并利用ε‑贪婪策略对强化学习的动作进行选择，通过不断地迭代训练，最终得到一个信号配时的最优方案。
搜索关键词：	强化学习单点配时自适应信号实际道路交叉口优化交叉口信号配时强化学习算法矩阵化处理迭代训练方案应用快速收敛随机抽取贪婪策略信号配时原始数据高维回放算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于SUMO交通仿真软件，通过深度强化学习的方法对单点交叉口信号配时进行优化的方法，其特征在于包括如下步骤：(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口，并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息，动作集A包含4种选择，学习时4种动作会进行随机选择，同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理，然后设置神经网络的层数及初始权重后进行训练，在训练时利用随机梯度下降的方法来更新神经网络的权重，由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代，得到最大的累积Q函数，并得出最优策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810902305.X/，转载请声明来源钻瓜专利网。

上一篇：基于气流变化的隧道车辆检测装置及方法
下一篇：基于LED主动发光的可变车道同步管控系统

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的单点交叉口信号配时优化方法在审

专利文献下载