[发明专利]电力系统有功潮流在线优化控制方法、存储介质和装置在审
申请号: | 202211065637.X | 申请日: | 2022-09-01 |
公开(公告)号: | CN115293052A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 郭骏;郭磊;张勇;宁剑;郭万舒;李敏;王艺博;陈茂源;胡满;喻乐;訾鹏;刘健 | 申请(专利权)人: | 国家电网有限公司华北分部 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;H02J3/06;H02J3/48;G06F113/04;G06F119/02 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 葛钟 |
地址: | 100032 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力系统 有功 潮流 在线 优化 控制 方法 存储 介质 装置 | ||
1.一种电力系统有功潮流在线优化控制方法,其特征在于,包括以下步骤,
构建有功潮流在线优化模型,并配置为马尔可夫决策过程;
利用历史数据对所述马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体;
利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器;
将电力系统的实时状态参数作为所述有功潮流在线优化控制器的输入,所述有功潮流在线优化控制器输出发电机最优决策,将所述发电机最优决策作用在对应的发电机中,实现实时最优控制。
2.根据权利要求1所述的电力系统有功潮流在线优化控制方法,其特征在于,所述马尔可夫决策过程中的参数包括电网状态参数、发电机动作参数、奖励值、状态转移以及折扣因子。
3.根据权利要求2所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用历史数据对马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体具体包括,
将电网状态和对应负荷的历史数据作为交流最优潮流求解器的输入,得到对应场景下的发电机最优动作,形成专家经验数据;
对所述专家经验数据经进行重组,将电网状态参数作为特征、所述发电机最优动作作为标签进行分类,然后将所述特征作为所述马尔可夫决策过程智能体的输入、所述标签作为所述马尔可夫决策过程智能体的输出对其神经网络进行预训练;
更新所述神经网络的权重与偏差,直到该神经网络的损失函数收敛,经过预训练的所述神经网络即为仿真电网环境智能体。
4.根据权利要求3所述的电力系统有功潮流在线优化控制方法,其特征在于,所述损失函数为
其中,μθ(at∣st)为神经网络θ的输出,at为选择的动作,st为当前状态,为真实的动作选择,NIL为数据数量,Dmant为状态动作集合。
5.根据权利要求2所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的步骤采用基于off-policy的PPO算法,PPO算法的框架包括Actor神经网络与Critic神经网络,将所述Actor神经网络作为仿真电网环境智能体,所述Actor神经网络学习随机优化策略函数,产生决策动作并与环境交互获得奖励,所述Critic神经网络拟合价值函数产生状态/动作价值,评估Actor神经网络的表现并指导Actor神经网络下一阶段的动作。
6.根据权利要求5所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的过程包括,
将所述仿真电网环境智能体从电网中获取的电网状态参数、发电机动作参数和奖励值作为一个元组存入经验池,初始化所述经验池;
采集每一时间步长的电网状态、仿真电网环境智能体动作、奖励值以及下一时间步长的电网状态;
当前幕结束后,计算当前幕的累计折扣回报以及优势函数;
利用裁剪方式计算Actor神经网络的损失函数,对所述Actor神经网络进行更新;
计算Critic神经网络的损失函数并更新,直到Critic神经网络的损失函数值小于设定阈值,此时的Actor神经网络即为有功潮流在线优化控制器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司华北分部,未经国家电网有限公司华北分部许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211065637.X/1.html,转载请声明来源钻瓜专利网。