[发明专利]基于线下强化学习与宏观模型的匝道控制方法有效
申请号: | 202111412067.2 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114141029B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 韩雨;李玲慧;高津达;刘攀 | 申请(专利权)人: | 东南大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 刘莎 |
地址: | 211135 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 宏观 模型 匝道 控制 方法 | ||
1.一种基于线下强化学习与宏观模型的匝道控制方法,其特征在于,该方法包括以下步骤:
步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集;
步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。
步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。
2.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)和40)中按照如下方式获取交通数据:
在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。
3.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)中按照如下方式建立并标定宏观交通流模型:
在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。
4.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤20)中,强化学习数据是通过以下流程获取的:
首先,以一个数据采集周期所采集的道路交通数据以及匝道控制信息作为真实强化学习状态数据集;随后,根据真实强化学习状态数据集中的交通流量、平均速度、交通密度以及匝道控制信息,在已经标定的宏观交通模型进一步生成合成强化学习数据,加入真实强化学习状态数据集构成强化学习数据集;其中强化学习数据集中的一条训练数据是一组状态转换数据,即[当前状态,动作,奖励,下一状态]。
5.根据权利要求4所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,合成强化学习数据的生成流程如下所述:在每个训练周期内,对于每个一组状态转换数据,除了已实施的动作,所有有限的可行的控制动作被列举出来,该组状态转换数据对应的道路交通数据与新列举的可行的控制动作逐个输入宏观交通流模型,预测下一步的道路交通数据并记录每个新列举的可行的控制动作对应的奖励;如果预测得到的下一步的交通状态存在于前述的真实强化学习状态数据集中,则将该组状态转换数据的道路交通数据对应的强化学习状态,新列举的可行的控制动作对应的奖励和宏观交通流模型预测得到的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。
6.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤30)中,Q表根据如下公式进行更新:
其中Q(s,a)为当前状态s采取动作a对应的Q值;Q(s′,a′)为下一个状态s′采取动作a′对应的Q值;r为当前状态动作下对应的奖励,a′为状态s′对应的可行动作,κ为学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111412067.2/1.html,转载请声明来源钻瓜专利网。