[发明专利]一种交通信号灯控制方法、装置及计算机可读存储介质有效
申请号: | 202110355167.X | 申请日: | 2021-04-01 |
公开(公告)号: | CN113077642B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 褚端峰;袁珊珊;陆丽萍;吴超仲 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/095;G06N3/04;G06N3/08 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 丁倩 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交通 信号灯 控制 方法 装置 计算机 可读 存储 介质 | ||
1.一种交通信号灯控制方法,其特征在于,包括以下步骤:
获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;
确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;
重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯;
所述状态矩阵包括可变道区中车辆位置、车辆速度和信号灯色三个矩阵以及不可变道区中车辆位置、车辆速度和车辆转向灯色三个矩阵的堆叠。
2.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述动作要素为信号灯下一相位是否改变,所述奖励要素为所有进口道上排队车辆的总和与所有出口道上排队车辆总和之差的负值。
3.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述构建深度神经网络具体包括,根据值分布强化学习算法构建深度神经网络,所述深度神经网络的输入为状态矩阵,将所述状态矩阵输入至深度神经网络后,经过两层卷积神经网络提取状态特征,通过激活函数激活,经过全连接层,再次经过激活函数后,经回归输出与动作对应的原子概率。
4.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,具体包括:
根据所述状态矩阵、动作要素及奖励要素建立经验池,利用均匀随机采样,从所述经验池中抽取样本数据;设置两个结构相同、参数不同的神经网络,分别形成训练网络和目标网络,根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,完成对深度神经网络的训练。
5.根据权利要求4所述的交通信号灯控制方法,其特征在于,所述根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,具体包括:
将抽取的样本数据输入至训练网络和目标网络中,训练网络拟合当前状态和动作分布,同时目标网络计算出下一状态最佳动作相位分布,将下一状态最佳动作相位分布进行收缩和移位,获取当前目标分布,通过投影操作获取与当前目标分布处在相同支撑向量的目标分布,并将其作为最终目标分布,以当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新。
6.根据权利要求5所述的交通信号灯控制方法,其特征在于,还包括,以KL散度表示当前目标分布与最终目标分布之间的误差,所述KL散度为
其中,DKL(qθ||p)为KL散度,q(i)为第i个支点当前分布的概率,p(i)为第i个支点目标分布的概率。
7.根据权利要求6所述的交通信号灯控制方法,其特征在于,所述当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新,具体包括:以KL散度最小化为优化目标,通过梯度下降法对深度神经网络的参数进行更新,目标函数的梯度为
其中,qθ为当前当前状态和动作分布。
8.一种交通信号灯控制装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-7任一所述的交通信号灯控制方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-7任一所述的交通信号灯控制方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110355167.X/1.html,转载请声明来源钻瓜专利网。