[发明专利]一种微电网储能协调控制的方法在审
申请号: | 202110753902.2 | 申请日: | 2021-07-03 |
公开(公告)号: | CN113555888A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 黎海涛;申保晨;吕鑫 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H02J3/32 | 分类号: | H02J3/32;H02J3/38 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电网 协调 控制 方法 | ||
1.一种基于深度强化学习的微电网储能协调控制方法,其特征在于,包括以下实现步骤:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax;
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数;
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω;
步骤(4):微电网系统观测当前系统状态st;
这里系统状态完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价;
步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt;
步骤(7):微电网系统观测下一时刻其所处状态st+1;
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则;
Actor网络的损失函数公式如下:
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1+κnV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值;
步骤(10):更新动作获取概率矩阵
其中τ是调整置信因子的常系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小;在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用;
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmaxp;
这里的p是指上一步骤中得到的动作获取概率矩阵;
步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
式中V(st,ω')表示Critic网络的价值取值;
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的梯度:
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数;
步骤(18):更新当前线程A3C神经网络Critic的梯度:
式中表示求偏导运算;dω1表示dω更新后的参数;
步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1;
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数;
步骤(21):如果TTmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3);并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110753902.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种PVC扣板生产加工装置
- 下一篇:一种箱体的温度控制系统及其控制方法