[发明专利]一种基于深度强化学习的微电网能量管理方法有效

专利信息
申请号: 202110403795.0 申请日: 2021-04-15
公开(公告)号: CN113139682B 公开(公告)日: 2023-10-10
发明(设计)人: 黎海涛;申保晨 申请(专利权)人: 北京工业大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/06;G06N3/0464;G06N3/08;H02J3/00
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 电网 能量 管理 方法
【权利要求书】:

1.一种用于微电网能量管理与优化的方法,其特征在于包括以下步骤:

步骤(1):初始化,设定微电网各组件的状态集s和动作集a,折扣因子μ(常数),经验池D的容量N,一次训练所选取的样本数d,当前神经网络Q的参数(α,β),目标神经网络Q′的参数(α′,β′),用于计算调整λ的步骤参数σ1和σ2

这里α,β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数,α′,β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数;

步骤(2):微电网系统观测当前系统状态s并选择一个初始动作a,其由{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作}组成;

步骤(3):将动作a执行到微电网系统,并以动作a对微电网系统各组件进行控制;

步骤(4):计算微电网系统执行动作a所获得当前时间步t时奖励值rt

步骤(5):观测下一时刻微电网系统所处状态s′;

步骤(6):微电网系统在经验池D中存储所得到的向量集(s,a,r,s′),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);

步骤(7):若经验池已满,从经验池D中取一批数据样本d,以对神经网络进行训练;

步骤(8):构造当前网络Q和目标网络Q′,把数据样本输入到当前神经网络处理得到Q(s,a)值;

这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成,其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成;

步骤(9):计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α),即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出;

步骤(10):把输出的状态值函数和优势函数合并得到当前网络Q的动作-状态函数;

即用状态值函数网络的输出加上优势函数网络的输出,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差,如下式所示

这里为优势函数A(s,a',α)的均值,a'为状态s'时的采用的动作,每个优势函数A值的计算都如步骤(9)所述,表示优势函数集A(s,a',α)的数量;

步骤(11):利用当前网络和目标网络的输出来计算损失函数L=(rt+μmaxa'Q(s',a')-Q(s,a))2

这里r+μmaxa'Q(s',a')是目标网络的输出,μ是折扣因子取1,maxa'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值,Q(s,a)是当前网络的输出,本步骤的目的是计算目标Q值与当前Q值的均方差,其中Q值的计算方法如步骤(9)、(10);

步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);

步骤(13):每隔Tc时间步更新目标网络的参数(α′,β′),即把当前网络参数(α,β)复制到目标网络代替(α′,β′);

这里Tc为设定的时间步数,若当前迭代计算的时间步t等于Tc时,则执行本步骤操作;

步骤(14):计算当前时间步t之前所有时刻T的累计奖赏值的平均值

步骤(15):根据累计奖赏值的平均值计算λ值

其中σ1和σ2均为常数;

步骤(16):微电网系统根据λ值和ε值选取下一时刻动作a',当概率为λ时,选取前一时刻的动作作为下一时刻的动作,即a'=a;当概率为时,选取一个随机动作作为下一时刻的动作;A表示在s状态下选择的一组动作,|A|表示集合A的基数;即a'=arandom;当概率为1-λ-ε时,选取Q值最大的动作为下一时刻的动作,即

其中ε值是一个随时间步数不断减少的值,它的设定最大值和最小值是固定不变的,其设定最大值为0.5,设定最小值为0.004,其每次减少的衰变值为1e-5;

步骤(17):更新迭代时间t=t+1;

步骤(18):重复步骤(2)~(17),直到收敛,并输出此时动作对应的{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作};

步骤(19):微电网系统利用对各组件的相关操作,完成最优能量管理与优化策略的选择。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110403795.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top