[发明专利]一种微电网储能协调控制的方法在审

专利信息
申请号: 202110753902.2 申请日: 2021-07-03
公开(公告)号: CN113555888A 公开(公告)日: 2021-10-26
发明(设计)人: 黎海涛;申保晨;吕鑫 申请(专利权)人: 北京工业大学
主分类号: H02J3/32 分类号: H02J3/32;H02J3/38
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电网 协调 控制 方法
【权利要求书】:

1.一种基于深度强化学习的微电网储能协调控制方法,其特征在于,包括以下实现步骤:

步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax

这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数;

步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;

步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω;

步骤(4):微电网系统观测当前系统状态st

这里系统状态完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价;

步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;

这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;

步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt

步骤(7):微电网系统观测下一时刻其所处状态st+1

步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);

步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;

acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则;

Actor网络的损失函数公式如下:

θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:

A(st,t)=rt+κrt+1+...+κn-1rt+n-1nV(st+1,ω')-V(st,ω')

式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值;

步骤(10):更新动作获取概率矩阵

其中τ是调整置信因子的常系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小;在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用;

步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmaxp;

这里的p是指上一步骤中得到的动作获取概率矩阵;

步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;

步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);

步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:

式中V(st,ω')表示Critic网络的价值取值;

步骤(15):更新迭代时间t=t-1

步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:

Q(st,t)=rt+γQ(st,t+1);

γ是一个常数,其取值为0.5;

步骤(17):更新当前线程A3C神经网络Actor的梯度:

式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数;

步骤(18):更新当前线程A3C神经网络Critic的梯度:

式中表示求偏导运算;dω1表示dω更新后的参数;

步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);

步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:

θ1=θ-αdθ1,ω1=ω-αdω1

这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数;

步骤(21):如果TTmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3);并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110753902.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top