[发明专利]一种基于深度强化学习的单点交叉口信号配时优化方法在审
申请号: | 201810902305.X | 申请日: | 2018-08-09 |
公开(公告)号: | CN109215355A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 陈鹏;朱泽茂;鲁光泉;王云鹏;余贵珍 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G06F17/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 单点 配时 自适应信号 实际道路 交叉口 优化 交叉口信号配时 强化学习算法 矩阵化处理 迭代训练 方案应用 快速收敛 随机抽取 贪婪策略 信号配时 原始数据 高维 回放 算法 | ||
1.一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,其特征在于包括如下步骤:
(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。
(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。
(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。
(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。
2.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:将实际道路数据输入网络,训练学习出一套适合于该交叉口的信号配时优化方案。
3.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:输入深度神经网络的矩阵的新颖性,将仿真时的车辆位置、速度和时间等信息转换为矩阵图,在已知车道长度为d的情况下,从停车线起划分单元网格,网格长度d约为平均车长加上平均车间距。此时若有车占据某一网格,在平面矩阵中将此位置标为1,若某网格中没有车,则标为0。根据这个原则,则可在矩阵左侧将各个车道的车辆数表示。将车速小于15kph的车定义为正在排队的车辆,此时在矩阵右侧记录相对应的每辆车车速,在矩阵右上侧为输入数据的时段,标有数字1所对应的时刻代表着输入的数据来自于此时段,而矩阵右下角的数字1代表数据来自于周末,其上方的数字则表示交叉口信号状态。矩阵中的信号状态定义为:[0,0]为东西直行,[0,1]为东西左转,[1,0]为南北直行,[1,1]南北左转。
4.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:利用深度神经网络逼近值函数的最优解,并对值函数和目标函数的参数进行迭代更新。
5.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:通过ε-贪婪策略和经验池回放的方法对动作及输入进行随机选择,从而使算法能够收敛于最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810902305.X/1.html,转载请声明来源钻瓜专利网。