[发明专利]一种基于3DQN_PSER算法的单交叉口信号控制方法有效

申请号：	202010064330.2	申请日：	2020-01-20
公开（公告）号：	CN111243299B	公开（公告）日：	2020-12-15
发明（设计）人：	刘志;曹诗鹏;沈阳;杨曦;沈国江	申请（专利权）人：	浙江工业大学
主分类号：	G08G1/07	分类号：	G08G1/07;G08G1/08;G08G1/065
代理公司：	杭州之江专利事务所(普通合伙) 33216	代理人：	张慧英
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dqn_pser 算法交叉口信号控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于，包括如下步骤：

(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计；

(2)对步骤(1)采集到的流量数据进行预处理，根据车牌号匹配的方法消除重复数据，并对缺失数据，按照短期内流量的时序相关性，采取前后流量数据的均值进行修复；

(3)基于步骤(2)得到的各车道流量数据，生成OD矩阵，配置对应的路由数据文件，并根据实际交叉口拓扑结构生成路网文件，基于需要探测的车辆运行状态配置车道区域探测器；

(4)通过离散交通状态编码技术设计路口的车辆动态流信息，组装成三维张量输入，并根据不同流向当前的信号状态，设计一维数组表示作为另一输入；

(5)将相位方案库离散化，作为动作集合A，引入动作奖惩系数δ来满足相位最小最大绿灯时间约束，对信号灯状态转变进行设计以实现相位过渡；所述步骤(5)中，列举出所有无冲突情况下的相位方案库，信号智能体在每个决策点都会从动作方案集合A＝{0，1，2，3，4，5，6，7}中选择一种相位方案；如果选择的动作和当前相位方案相同，则执行当前绿灯相位τ_g秒，否则，需要先执行过渡相位τ_y秒，其中过渡相位指黄灯相位；根据在决策点的选择会执行对应的相位方案；其中，根据相位最小绿灯时间和最大绿灯时间，设计了动作奖惩系数，并将其引入最终Q值的计算；动作奖惩系数如下所示：

其中，其中，G_min和G_max分别表示最小绿灯时间和最大绿灯时间，Φ为奖惩尺度，取值需要结合奖励分布情况来设计；p₁和p₂表示相位方案中两流向的绿灯时间，且本式前提为p₁＜p₂；

在相位方案切换的过程中，会涉及信号灯灯色状态的转移，若当前信号灯执行方案一，由流向2和流向5组成，下一决策点选择的动作仍是方案一，则会继续执行当前方案τ_g秒；若下一决策点执行的动作是方案二，则在切换到方案二相位之前，会先执行对应的过渡相位τ_y秒，根据前后决策点的相位方案不同，执行的过渡相位也有所不同，若下一决策点执行方案五动作，则会保持流向2绿灯，而流向5变成黄灯过渡相位；

(6)对排队长度r_queue、累计等待时间r_waitTime、刹车次数r_halting和相位是否切换r_phase四个指标进行系数加权，作为信号智能体的奖励函数；具体步骤如下：

(6.1)各车道在该决策点的排队长度之和r_queue；

(6.2)相邻决策点之间的累计等待时间之差r_waitTime，若当前处于决策点k+1，此时的累计等待时间r_waitTime＝W_k+1-W_k，如果r_waitTime＜0，表明这段时间路网比之前畅通，反之则表明路网拥堵加重，此外等待时间是根据车辆的速度是否低于0.1m/s来判定的；

(6.3)各车道在该决策点的刹车数量之和r_halting；

(6.4)当前决策点选择的动作是否会导致相位切换r_phase，如果切换的话r_phase＝1,没有切换的话r_phase＝0；

(6.5)综合以上指标，并结合相应的权重系数k₁，k₂，k₃，k₄，加权得到最终的奖励：

r＝k₁*r_queue+k₂*r_waitTime+k₃*r_halting+k₄*r_phase；

(7)基于以线为单位来调整一定范围内样本数据优先级的优先序列经验重放的方法，并结合Double DQN和Dueling DQN来优化深度Q学习算法，基于Adam优化器，并采用均方差作为损失函数，反复更新网络模型参数，寻找得到最优的配时方案；所述步骤(7)中，利用Double DQN和Dueling DQN技术来调整Q值的选择以及局部网络结构，经过以上调整后，Q值的更新函数如下：

式中，Q(s,a；θ,α,β,δ)＝Q(s,a；θ,α,β)+δ

其中，θ和θ^-分别表示主网络和目标网络参数，α和β表示经Dueling调整后，全连接层两支流的参数，s′表示下一个状态，γ表示折扣系数，指的是即时奖励和累计未来奖励之间的衰减情况，δ为动作奖惩系数；考虑到短期内交通流和信号方案相互依赖，以及数据自身特性，采用优先序列经验重放的方法来更新序列样本的优先级，即以“线”为单位来调整一定范围内的样本优先级，并使用均方差作为损失函数：

其中，B表示取样个数，w_j为样本j重要性采样权重系数；

通过梯度下降法将误差反向传播，并更新一轮网络模型参数，当奖励值收敛到稳定值，便得到最佳的信号配时方案；

所述更新规则如下：

p_t-1＝max(ρ¹p_t,p_t-1)

p_t-2＝max(ρ²p_t,p_t-2)

p_t-3＝max(ρ³p_t,p_t-3)

...

p_t-(W-1)＝max(ρ^(W-1)p_t,p_t-(W-1))

其中，ρ为衰减系数，用来相邻决策点之间优先级影响程度；p_t是索引t的样本优先级，指估计Q值和实际Q值之间差的绝对值，称为TD-error，其计算公式如下：

p_t＝|Y_t^3DQN-Q(s,a；θ,α,β,δ)|+o

其中，o是一个常数，为了避免优先级为零，设为0.0001。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。