[发明专利]基于强化学习的园区能效提升的设备优化配置方法及系统有效

申请号：	202111569479.7	申请日：	2021-12-21
公开（公告）号：	CN114240192B	公开（公告）日：	2022-06-24
发明（设计）人：	王海;张大鹏;李东东	申请（专利权）人：	特斯联科技集团有限公司
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/06;G06N3/04;G06N3/08
代理公司：	北京春江专利商标代理事务所(普通合伙) 11835	代理人：	曹洁
地址：	100027 北京市朝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习能效提升设备优化配置方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的园区能效提升的设备优化配置方法，其特征在于，包括以下步骤：

S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；

S2、针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；

S3、对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置；

所述S1的步骤包括：

S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度和平均截面积达标线路长度为园区内的第i个设备，N为园区内的设备总个数，K表示当前预设时段；

S12、以当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度和平均截面积达标线路长度为输入参数，以下一预设时段综合线耗率γ_i[K+1]为输出参数，构建第i个设备的配电线路的神经网络模型，K+1表示下一预设时段；

S13、以当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γ_i[K+1]为输入参数，以下一预设时段设备平均能效比和下一预设时段用电量Q_i[K+1]为输出参数，构建第i个设备的神经网络模型；

S14、对N个设备运行系统模型的输出参数，分别按照对应的权重信息进行加权平均值计算，计算的结果为组合使用N个设备运行系统模型的输出结果，获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1]；

所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络，第一Actor网络的第一状态变量ε_i[K]，λ_i[K]，ζ_i[K]]、第一动作变量和第一奖励信号为平均线路长度设定值，为平均截面积达标线路长度设定值，E为常数；

第二Actor网络的第二状态变量第二动作变量和第二奖励信号为平均电压设定值，为平均负载率设定值，为平均功率因数设定值；

S3的步骤包括：

S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络，令为当前第一状态，为当前第二状态，为当前第一状态对应的第一奖励信号的值，为当前第二状态对应的第二奖励信号的值；

S32、针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k组第一估计动作，第一校正系数用于对当前第一Actor网络生成的动作进行校正；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集；

S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集，每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作；然后每个设备均向前推测p步，获得k组p步后的时段内的所有设备平均能效比和总用电量Q_j[K+p]，j＝1,2，...，k，选出最大所有设备平均能效比和最小总用电量Q_min[K+p]；

S34、比较最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值；

S35、若不相等，则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集；

S36、若相等，则令第一实际动作集和第二实际动作集分别为获得最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集；

S37、执行第一实际动作集和第二实际动作集，针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新；

S38、以最大化折扣累积奖励为优化目标进行迭代，得到园区各设备的最优化配置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司，未经特斯联科技集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111569479.7/1.html，转载请声明来源钻瓜专利网。