[发明专利]基于强化学习的城轨交通储能系统能量管理方法有效

申请号：	201711053352.3	申请日：	2017-11-01
公开（公告）号：	CN107895960B	公开（公告）日：	2020-03-17
发明（设计）人：	诸斐琴;杨中平;林飞;杨志鸿;信月	申请（专利权）人：	北京交通大学长三角研究院
主分类号：	H02J3/32	分类号：	H02J3/32;H02J7/34
代理公司：	镇江京科专利商标代理有限公司 32107	代理人：	夏哲华
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习交通系统能量管理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的城轨交通储能系统能量管理方法，其特征是：包括策略网络初始化和在线学习两部分；其中策略网络初始化部分利用城轨交通中已知的线路、车辆信息、事先编制的列车运行图，以及实际采集的历史车辆数据，建立多车运行场景模型；将多车运行场景模型、空载电压预测模型、直流供电潮流计算算法和近似动态规划算法结合，离线求解储能系统最优控制问题，得到策略网络，作为在线学习模块的初值；在线学习模块采用无模型强化学习算法，通过超级电容智能代理试错的方法进行充放电阈值在线调整。

2.根据权利要求1所述的基于强化学习的城轨交通储能系统能量管理方法，其特征是：所述多车运行场景模型，是将储能系统附近多车运行的整体工况用LSTM网络进行预测：首先基于已知的线路、车辆参数和列车运行图进行牵引计算，得到单列车的速度-时间(V-t)、功率-时间(P-t)和位移-时间(S-t)序列，在全天列车运行图的不同时段进行序列采样，序列长度为所在时段的发车间隔时间，得到多车运行场景序列，如式(1)所示；

x(t)＝[s₁,p₁,s₂,p₂,s₃,p₃,s₄,p₄] (1)；

基于得到的序列数据初始化训练LSTM网络；然后再根据长期记录的实际列车历史运行数据对网络参数进行调整，使其更加精确地预测实际列车工况。

3.根据权利要求1所述的基于强化学习的城轨交通储能系统能量管理方法，其特征是：所述空载电压预测模型，是通过记录变电所整流机组电流从0变为正值时刻的输出电压为该时段变电所空载电压，得到全天变电所空载电压变化曲线，用LSTM网络进行拟合。

4.根据权利要求1所述的基于强化学习的城轨交通储能系统能量管理方法，其特征是：所述策略网络初始化是：

超级电容储能系统的优化控制策略，可表示成式(2)的形式：

式中，u(t)为决策变量，u(t)＝[u_ch(t),u_ds(t)]；

J为控制目标，本文综合考虑储能系统的节能和稳压效果，将其定义为节能率e％和网压改善率v％的加权和，ω为权重系数； e％和v％的计算公式分别如式(3)、(4)所示：

式(3)中，分别表示加入/未加储能系统时变电所j的电压和电流；n表示统计的变电所总数量；节能率e％定义为加入储能系统前后变电所总输出能量变化量占无储能系统时变电所总输出能量的百分比；式(4)中，分别表示加入/未加入储能系统时第k辆列车的受电弓电压；Nt为统计时间段及线路区间内列车总数；U_pk表示第k列车的受电弓电压；T表示U_pk高于/低于网压波动高/低值的时刻；稳压率v％用列车受电弓电压超出/低于一定值部分的积分来评估。

5.根据权利要求1所述的基于强化学习的城轨交通储能系统能量管理方法，其特征是：所述在线学习模块是：

将超级电容能量管理系统视为学习和决策的代理，整个牵引供电系统视为代理所处的环境；代理通过通信获取线路列车运行状态、变电所状态和自身SOC状态，执行相应的动作，从而影响环境状态并使得环境生成反映节能、稳压效果的奖励信号；代理获得反馈的奖励信号后对动作进行改进，通过与环境交互和试错的机制实现序贯决策的优化；

包括：

(a)状态s，包括各个列车的位移d_k、功率p_k，其中k表示第k辆列车，还包括超级电容SOC状态和变电所状态，即整流机组电流从0变为正值时刻的输出电压u_es；即：

s＝[d₁,p₁,L,d_N,p_N,soc,u_es] (5)；

状态集合S为各个列车状态集合S_traink、SOC状态集合S_SOC和变电所状态S_sub的直积，如式(6)所示；

S＝S_train1×S_train2×L S_trainN×S_soc×S_sub (6)；

(b)动作a与策略π，储能系统动作a定义为充放电阈值的组合，即a＝[u_ds,u_ch]；策略π定义了代理的行为，是状态集合S到动作集合A的映射：π：S→A；

(c)奖励r，奖励信号是环境对代理动作的反馈，代理学习的目标即获得最大累积奖励；定义代理的奖励为时间步长ΔT内节能率、电压改善率加权和的增量，其中权重系数ω取为0.5，如式(7)所示

r＝-0.5·Δv％-0.5·Δe％ (7)；

累积奖励与储能系统控制目标J满足关系式(8)；

J＝1+r₁+r₂+L+r_T (8)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载