[发明专利]一种微电网储能协调控制的方法在审

申请号：	202110753902.2	申请日：	2021-07-03
公开（公告）号：	CN113555888A	公开（公告）日：	2021-10-26
发明（设计）人：	黎海涛;申保晨;吕鑫	申请（专利权）人：	北京工业大学
主分类号：	H02J3/32	分类号：	H02J3/32;H02J3/38
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种电网协调控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的微电网储能协调控制方法，其特征在于，包括以下实现步骤：

步骤(1)：初始化，设定微电网各组件的状态集s和动作集a，公共部分A3C神经网络结构的参数(θ，ω)，当前线程A3C神经网络结构对应参数(θ'，ω')，一次训练所选取的样本数d，全局共享的迭代次数T，当前线程总的迭代时间步数N_t，初始时间t，设定开始时刻t_start，设定最大迭代次数T_max；

这里θ，ω分别表示公共部分A3C神经网络结构Actor和Critic的参数，θ'，ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数；

步骤(2)：重置公共部分A3C神经网络结构Actor和Critic的梯度更新量，其分别为dθ和dω，并设定初始值dθ为0，dω为0；

步骤(3)：从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数：θ'＝θ，ω'＝ω；

步骤(4)：微电网系统观测当前系统状态s_t；

这里系统状态完成对微电网系统工作参数的配置，包括直接可控制负荷的荷电状态值，不可直接控制负荷的基本负荷值，风力发电的当前发电量，当前环境的温度值，从电网购买电量的价格，向电网销售电量的价格，最高购电价；

步骤(5)：基于策略π(a_t|s_t,θ)选择动作a_t,并将动作a_t执行到微电网系统，以动作a_t对微电网系统各组件进行控制；

这里，策略π(a_t|s_t,θ)为在s_t和θ条件下选择a_t的概率，动作a_t由{直接可控制负荷控制的动作，不可直接控制负荷控制的动作，微电网电量短缺时确定储能组件/电网优先级的动作，微电网电量过剩时确定储能组件/电网优先级的动作}组成，其中电量短缺是指分布式发电量小于电力负荷用电量；电量过剩是指分布式发电量大于电力负荷用电量；

步骤(6)：计算微电网系统执行动作a_t所获得当前时间步t时刻奖励值r_t；

步骤(7)：微电网系统观测下一时刻其所处状态s_t+1；

步骤(8)：微电网系统在经验池D中存储所得到的向量集(s_t,at,r_t,s_t+1),即(当前时刻状态，当前时刻动作，当前时刻奖励，下一时刻状态)；

步骤(9)：若经验池已满，从经验池D中取一批数据样本数d，对Actor网络进行训练，计算损失函数，并保存Actor网络输出的概率矩阵acts_prob；

acts_prob为Actor网络输出的动作概率分布矩阵，其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到，该神经网络模型包括输入层107个神经元组成的全连接层，一层卷积核为3x3的卷积层，一层全局平均池化层，以及两层神经元个数分别为200和100的全连接层，输出层80个神经元的全连接层，该神经网络模型的输入层设计依据环境状态信息的集合，输出层设计依据策略信息的集合，隐藏层的设计依据卷积、池化和全连接层相配合的原则；

Actor网络的损失函数公式如下：

θ₁'表示更新后的θ'参数；υ是策略π的熵项，其取值范围为[0,1]，经过在[0,1]中不断取值进行最优参数选择；c为常系数，其取值为1e-5；表示对θ'求导的梯度；H表示对策略π的求熵运算；π_θ'(s_t,a_t)表示在s_t和θ'条件下选择a_t的概率；π(s_t,θ')表示在s_t条件下选择θ'的概率；A(s_t,t)表示Critic网络的优势函数，其通过n步采样取得，函数表达式如下：

A(s_t,t)＝r_t+κr_t+1+...+κ^n-1r_t+n-1+κⁿV(s_t+1,ω')-V(s_t,ω')

式中r_t表示当前时刻奖励值；κ表示常系数，其取值为0.001；V(s_t,ω')表示Critic网络在s_t和ω'条件下的价值取值，其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到，该神经网络模型包括输入层107个神经元组成的全连接层，一层卷积核为3x3的卷积层，一层全局平均池化层，以及两层神经元个数分别为200和100的全连接层，输出层1个神经元组成的全连接层，该神经网络模型的输入层设计依据环境状态信息的集合，输出层设计为1个确切值，隐藏层的设计依据卷积、池化和全连接层相配合的原则；V(s_t+1,ω')表示Critic网络在s_t+1和ω'条件下的价值取值；

步骤(10)：更新动作获取概率矩阵

其中τ是调整置信因子的常系数，此处τ为0.003；第二项是置信因子；ε是不断减小的参数；此处，ε设定最大值为4，设定最小值为2，其每次减少的衰变值为0.005；N_j为表示经过t个时间步后第j个动作被选择的次数；随着训练的进行，ε不断减小，置信因子的影响会逐渐变小；在t时刻，如果一个动作已经被选了越多次，该动作Actor网络输出所返回的概率值就越大，越会继续采用；

步骤(11)：微电网系统根据动作概率最大原则选取下一时刻动作a_t+1，即a_t+1＝argmaxp；

这里的p是指上一步骤中得到的动作获取概率矩阵；

步骤(12)：更新迭代时间t＝t+1，迭代次数T＝T+1；

步骤(13)：判断当前时刻状态s_t是否为终止状态，如果是终止状态则进入下一步骤，否则返回步骤(6)；

步骤(14)：计算最后一个时刻t对应状态s_t的Critic网络输出Q(s_t,t)，如下式所示：

式中V(s_t,ω')表示Critic网络的价值取值；

步骤(15)：更新迭代时间t＝t-1

步骤(16)：计算当前时刻t所对应状态s_t的Critic网络输出Q(st,t),如下：

Q(s_t,t)＝r_t+γQ(s_t,t+1)；

γ是一个常数，其取值为0.5；

步骤(17)：更新当前线程A3C神经网络Actor的梯度：

式中V(s_t,ω')表示Critic网络的价值取值；dθ₁表示dθ更新后的参数；