[发明专利]基于分布式多智能体强化学习的电网多断面功率控制方法有效
申请号: | 202011451510.2 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112615379B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王灿;徐震宇;叶德仕;冯雁 | 申请(专利权)人: | 浙江大学 |
主分类号: | H02J3/06 | 分类号: | H02J3/06;H02J3/46;G06F30/27;G06F113/04 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310058 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 智能 强化 学习 电网 断面 功率 控制 方法 | ||
1.基于分布式多智能体强化学习的电网多断面功率控制方法,包括如下步骤:
1)根据电网控制需要选取N个目标断面,并构建强化学习方法的基本元素,包括环境、智能体、观测状态、动作、奖励函数;强化学习方法基本要素构建过程如下:
11)构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值;环境根据决策中的动作,修改电网中的相关电力参数,并进行潮流计算更新电网状态和断面功率计算;
12)构建N个发电机调度策略智能体;智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略;每个智能体负责监管一个目标断面,智能体之间通过合作与竞争不断学习到最优的全局策略;
13)构建观测状态;状态变量反映某一时刻电力系统的潮流运行状态;以发电机有功功率、无功功率,负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征;对任一智能体,可观测状态S包括公共状态Spub和专有状态Sspe,具体包含:
其中,SG代表发电机的状态量,包含发电机有功出力PG和无功出力QG;SL代表负荷的状态量,包含负荷的有功消耗PL和无功消耗QL;SAC代表交流线的状态量,包含交流线的有功功率PAC和无功功率QAC;专有状态Sspe包含目标断面的当前功率PC和目标功率Ptar;
14)构建基于目标功率距离和经验知识的智能体奖励函数,具体包括三类奖励函数:
距离奖励:根据断面当前目标值和目标值之间的差距给予负奖励;对于第i个智能体,其距离奖励公式为:
其中包括D(Mi)代表每个目标断面当前时刻功率与目标功率的距离;
经验奖励:根据送端、受端发电机调整量是否平衡给予引导性奖励;其中平衡情况是指送端发电机组出力增加,受端 发电机组出力减少的情况;
约束奖励:根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励;
最终每个智能体i获得的奖励为
15)构建发电机有功出力调整动作动作其中,NG代表可调发电机的数量,A中的每一元素代表了每个可调发电机的有功出力调度变化量,对于单次调整动作,其元素大小限制在[-0.5,0.5]范围内;动作的执行则对是对各个可调发电机进行再调度,对于发电机j,1≤j≤NG,其有功出力Pj在调整后更新为P′j=Pj+ ;若发电机属于PQ节点类型,其无功出力Qj在调整后更新为
2)运行多断面功率控制任务交互环境,创造初始潮流数据集;
3)构造深度神经网络模型,应用多智能体深度确定性策略梯度算法,即MADDPG算法,对决策智能体进行训练,引入分布式提高训练效率;
4)利用训练完成的智能体为多断面功率控制提供决策。
2.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤2)的初始潮流数据集构造规则如下:
21)随机挑选M个负荷,负荷的有功功率和无功功率按10%的步长逐步增长增加,范围为初始值的1-4倍;
22)随机挑选K个发电机,平均分配总体负荷增加量;
23)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据。
3.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤3)的构造深度神经网络模型具体包括:
对于每个智能体,基于行为者-评论者结构,即actor-critic结构,首先构造actor网络,即策略网络,其输入为当前智能体的局部观测状态量,输出每个可调发电机的功率调度量;其次构造critic网络,即估值网络,其输入为全体智能体的局部观测状态量及预测动作,该状态的预估价值;网络均由若干全连接层和ReLU激活函数层组成。
4.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤3)的应用分布式MADDPG算法训练过程如下:
31)构造工作者Worker-学习者Learner分布式框架,包含若干个Worker,1个Learner和1个共享经验池;每个Worker中包含N个策略网络,即对应N个智能体,负责并行地与环境交互;Leaner包含完整的N个actor-critic结构,负责从共享经验池中获取交互经验用于网络的训练;
32)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数;
33)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入,分别输出发电机调度动作,将各个智能体的动作以算术平均的方式进行融合,传入环境执行;不同Worker通过多进程方式分布到不同CPU核上并行运算;
34)执行动作后更新环境状态,依据定义的奖励函数反馈每个智能体的奖励值;将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中;
35)重复执行33)、34)直到达到最大预设次数;Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络;
36)对于Learner,重复地从经验池中随机采样一个批次的数据,学习并更新策略网络和估值网络;该过程与35)并行执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451510.2/1.html,转载请声明来源钻瓜专利网。