[发明专利]一种交叉口信号配时控制优化的方法和装置有效
申请号: | 201810567896.X | 申请日: | 2018-06-05 |
公开(公告)号: | CN108805348B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 詹仙园;郑宇 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;李阳 |
地址: | 101111 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交叉口 信号 控制 优化 方法 装置 | ||
1.一种交叉口信号配时控制优化的方法,其特征在于,包括:
获取状态-动作-奖励样本集,所述状态-动作-奖励样本集包括至少一个交叉口的状态-动作-奖励子样本集;
基于神经网络和所述状态-动作-奖励样本集,训练得到交通状态模拟器;
基于强化学习和所述状态-动作-奖励样本集、交通状态模拟器,训练得到信号配时控制模型;
其中,获取状态-动作-奖励样本集的步骤包括:通过地图匹配算法,将获取的车辆轨迹数据分别映射到路网的相应路段中,并计算所述路网中每个路段在每一时间步的交通数据;所述交通数据至少包括以下一种:车辆的平均通行速度、所述平均通行速度的标准差和路段车流量;
获取每个交叉口的环境数据;
根据所述时间步获取每个交叉口的信号配时方案;所述信号配时方案至少包括以下一种:各交叉口在各时间段的配时周期时长,各方向左转绿灯时长,左转直行绿灯时长以及直行绿灯时长在周期时长中的占比,以及各交叉口之间的相位差;
定义奖励函数,并根据所述交通数据和环境数据、信号配时方案、奖励函数确定状态-动作-奖励样本集。
2.根据权利要求1所述的方法,其特征在于,基于神经网络和所述状态-动作-奖励样本集,训练得到交通状态模拟器的步骤包括:
对于每个交叉口的状态-动作-奖励子样本集,基于神经网络对其进行训练,以得到单交叉口交通状态模拟器;
根据所述单交叉口交通状态模拟器和所述状态-动作-奖励样本集,训练得到多交叉口交通状态模拟器。
3.根据权利要求1所述的方法,其特征在于,包括:
所述环境数据至少包括以下一种:几何结构、相邻路段数量、相邻路段长度、车道数量、道路等级和周边兴趣点分布。
4.根据权利要求3所述的方法,其特征在于,通过地图匹配算法,将获取的车辆轨迹数据分别映射到路网的相应路段中,并计算所述路网中每个路段在每一时间步的交通数据的步骤包括:
通过地图匹配算法,将获取的车辆轨迹数据分别映射到路网的相应路段中,并计算所述路网中每个路段在每一时间步的初始交通数据;
通过协同张量分解对所述初始交通数据进行处理,以得到缺失路段的交通数据,所述缺失路段的交通数据和初始交通数据构成每个路段的交通数据。
5.根据权利要求1所述的方法,其特征在于,在基于神经网络和所述状态-动作-奖励样本集,训练得到交通状态模拟器之前,还包括:
确定交通状态模拟器的结构为递归神经网络结构;其中,输入端为当前时间步的状态变量、动作变量以及前一时间步的隐变量;输出端为下一时间步的状态变量和当前时间步的隐变量;隐藏层为至少一层全连接神经网络层。
6.根据权利要求1所述的方法,其特征在于,在基于神经网络和所述状态-动作-奖励样本集,训练得到交通状态模拟器之前,还包括:
确定交通状态模拟器的结构为递归神经网络结构;其中,输入端为当前时间步的状态变量、动作变量;输出端为下一时间步的状态变量;隐藏层通过至少一层全连接神经网络层对所述当前时间步的状态变量、动作变量进行初步特征提取,以及通过至少一层递归神经网络层对所述初步特征进行处理,并将所述至少一层递归神经网络层的输出值输入中间网络层,所述中间网络层由至少一层全连接神经网络层构成;将所述中间网络层的输出值进行拆分,并将拆分的结果通过至少一层全连接神经网络层和至少一层递归神经网络层处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810567896.X/1.html,转载请声明来源钻瓜专利网。