[发明专利]城市轨道交通列车节能优化方法、装置、设备及存储介质在审
申请号: | 202111545808.4 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114282436A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 方笑晗;毛中天;张馨雨;宋程;樊渊;陶骏;潘天红;程松松 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 闫客 |
地址: | 230039 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 城市 轨道交通 列车 节能 优化 方法 装置 设备 存储 介质 | ||
1.一种城市轨道交通列车节能优化方法,其特征在于,采用行车能耗DDPG模型进行行车策略选择,所述方法包括如下步骤:
S10、获取当前时刻所述列车运行环境下的状态信息和奖励值,所述奖励值采用奖励函数计算得到,所述奖励函数包括所述DDPG模型中的第一奖励函数和所述列车行车过程中牵引力所做功与行车准点结合的第二奖励函数;
S20、基于所述列车运行环境下状态信息和奖励值,选择运行动作下发至所述列车以使所述列车下一时刻按照所述运行动作行车;
S30、将下一时刻确定为当前时刻,重复执行步骤S10~S20。
2.如权利要求1所述的城市轨道交通列车节能优化方法,其特征在于,所述奖励函数的公式表示为:
Rβ(s)=ωR(s)+(1-ω)J(s)
其中,J(s)为所述DDPG模型中的奖励函数,R(s)为根据所述列车行车过程中牵引力所做功与行车准点结合的奖励函数,ω为占比,取值为0-1,R(s)=α1(∫Fvdt)+α2(∑t-T0),α1+α2=1,∫Fvdt为所述牵引力所做功,F是所述牵引力,v是所述列车行车速度,∑t-T0为所述列车行车时间偏差,t是实际行车时间,T0是列车运行区段运行时刻表中的时间。
3.如权利要求1所述的城市轨道交通列车节能优化方法,其特征在于,在基于所述列车运行环境下状态信息和奖励值,选择运行动作下发至所述列车时,还包括:
引入随机噪声,将所述行车策略转换为随机过程,随机采样得到所述运行动作。
4.如权利要求1所述的城市轨道交通列车节能优化方法,其特征在于,在所述列车接收到所述运行动作时,还包括:
根据行车区段的限速图判断所述运行动作是否时危险动作;
若是,则发送动作请求指令以重新选择所述运行动作;
若否,则执行所述运行动作。
5.如权利要求1所述的城市轨道交通列车节能优化方法,其特征在于,所述行车能耗DDPG模型包括critic网络和actor网络,所述critic网络包括Online策略网络和Target策略网络,所述actor网络包括Online Q网络和Target Q网络,所述获取当前时刻所述列车运行环境下的状态信息和奖励值时,还包括:
所述critic网络将所述状态信息和所述奖励值变换为状态转换数据,并标记状态转换数据的优先级,其中,所述优先级按照所述奖励值的大小从高到低标记;
将标记优先级后的所述状态转换数据存储至重放内存缓冲区;
按照所述优先级的顺序,从所述重放内存缓冲区内抽取数据,以用于对所述critic网络和所述actor网络进行训练。
6.如权利要求5所述的城市轨道交通列车节能优化方法,其特征在于,所述方法还包括:
采用随机梯度下降法更新所述Online Q网络和所述Online策略网络的参数;
采用soft update算法更新所述Target网络和所述Target策略网络的参数。
7.一种城市轨道交通列车节能优化装置,其特征在于,采用行车能耗DDPG模型进行行车策略选择,所述装置包括:
获取模块,用于获取当前时刻所述列车运行环境下的状态信息和奖励值,所述奖励值采用奖励函数计算得到,所述奖励函数包括所述DDPG模型中的第一奖励函数和所述列车行车过程中牵引力所做功与行车准点结合的第二奖励函数;
决策模块,用于基于所述列车运行环境下状态信息和奖励值,选择运行动作下发至所述列车以使所述列车下一时刻按照所述运行动作行车;
交互反馈模块,用于将下一时刻确定为当前时刻,执行所述获取模块动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111545808.4/1.html,转载请声明来源钻瓜专利网。