[发明专利]一种基于深度强化学习的单点交叉口信号配时优化方法在审
申请号: | 201810902305.X | 申请日: | 2018-08-09 |
公开(公告)号: | CN109215355A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 陈鹏;朱泽茂;鲁光泉;王云鹏;余贵珍 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G06F17/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法,旨在通过实际道路数据,利用深度强化学习对单点交叉口进行仿真配时优化,并最终将仿真方案应用于实际道路,该方法克服了现有自适应信号配时方法的弊端,提供了一种可以进行高维输入,快速收敛的一种新颖算法。在实施本方法的过程中,首先对原始原始数据进行矩阵化处理,通过经验回放策略随机抽取输入数据,并利用ε‑贪婪策略对强化学习的动作进行选择,通过不断地迭代训练,最终得到一个信号配时的最优方案。 | ||
搜索关键词: | 强化学习 单点 配时 自适应信号 实际道路 交叉口 优化 交叉口信号配时 强化学习算法 矩阵化处理 迭代训练 方案应用 快速收敛 随机抽取 贪婪策略 信号配时 原始数据 高维 回放 算法 | ||
【主权项】:
1.一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,其特征在于包括如下步骤:(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810902305.X/,转载请声明来源钻瓜专利网。