[发明专利]一种基于深度强化学习的逆变器控制器有效

专利信息
申请号: 202010965127.2 申请日: 2020-09-15
公开(公告)号: CN112187074B 公开(公告)日: 2022-04-19
发明(设计)人: 张昌华;张坤;徐子豪 申请(专利权)人: 电子科技大学
主分类号: H02M7/48 分类号: H02M7/48;H02M7/5387;H02M7/493;H02M1/08;H02M1/084;H02M1/088;H02J3/38;H02J3/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 逆变器 控制器
【权利要求书】:

1.一种基于深度强化学习的逆变器控制器,其特征在于,包括虚拟同步发电机控制模块、深度强化学习控制模块,所述逆变器控制器模拟了同步发电机转子运动方程,并通过深度强化学习控制模块调整虚拟转动惯量,以获得较好的电力系统低频振荡抑制效果;

首先是虚拟同步发电机控制模块,其中包括dq变换模块、输出有功无功和端电压有效值计算模块、调制波信号幅值计算模块、模拟转子运动方程模块、dq反变换和PWM调制模块:

——dq变换模块用于将逆变器LC滤波器上电容的三相电压ea、eb、ec和电感上流过的三相电流ia、ib、ic,分解到逆变器的同步旋转坐标系下得到其dq轴分量ud、uq和id、iq

——输出有功无功和端电压有效值计算模块的计算公式如式(1)所示:

式中,P为有功功率,Q为无功功率,U为输出电压幅值;

——调制波信号幅值计算模块用于计算调制波幅值Eq,所用公式为:

Eq=∫Ke[(Uref-U)-n(Q-Qref)]dt (2)

式中,Uref为逆变器端电压的设定值;Qref为逆变器无功功率的设定值;Ke为放大增益;n为无功电压环节的下垂系数;Eq为逆变器调制波信号中的q轴分量,调制波信号的0轴和d轴分量均为0;

——模拟转子运动方程模块用于计算逆变器虚拟的角频率ω和调制波的相位角δ,计算公式如式(3)(4)所示:

δ=ωn∫ωdt (4)

式中,J为逆变器虚拟转动惯量;m为有功下垂系数;Pref为逆变器输出有功功率的设定值;D为逆变器虚拟阻尼系数;δ为逆变器调制波相位;ωn为角频率基准值;

——dq反变换和PWM调制模块用于将调制波信号幅值计算模块、模拟转子运动方程模块的计算结果经dq反变换后得到调制波信号ua、ub、uc,再根据PWM算法生成PWM控制信号驱动三相逆变桥,实现逆变功能;

其次是深度强化学习控制模块,其作用在于调整虚拟转动惯量J,包括以下步骤:

步骤1:确定控制动作集A、状态集合S、奖励函数R、和动作价值函数Qπ(s,a);

其中控制动作集A的表达式为:

式中,Jmin和Jmax为一组预先设定的虚拟转动惯量上下限的值;

状态集合S的表达式为:

S∈{(ΔP,Δω)} (6)

式中,ΔP为逆变器在某时刻的输出有功功率与设定值之差;Δω为该时刻虚拟同步发电机转速偏差,(△P,Δω)表示逆变器在该时刻输出功率P和虚拟角频率ω的偏差组合;

奖励函数R的表达式为:

式中,r(st,at)为在t时刻的系统状态st采取动作at后得到的单步奖励值;ap、aω分别为有功功率差、转速偏差所占评价指标的权重系数;step为每一步的学习步长时间;Rt为从当前状态直到终止状态间所有动作产生的奖励值的加权和;T为终止状态的时刻;γ为折扣因子,决定时间的远近对奖励值的影响程度;

动作价值函数的表达式为:

式中,π为最优策略;为数学期望;

步骤2:建立逆变器的数学模型,利用DDPG(deep deterministic policy gradient)算法离线预学习,获得初步优化后的控制器参数;

其中DDPG算法为Actor-Critic框架,采用四个神经网络,即Actor网络对应策略网络,分为现实策略网络和目标策略网络,对应的神经网络参数分别为θμ和θμ',Critic网络对应价值网络,分为现实价值网络和目标价值网络,对应的神经网络参数分别为θQ和θQ';每个神经网络具有相同的结构,都包括2个全连接的隐藏层,2个隐藏层的神经元个数分别为N1,N2;DDPG算法采取确定性策略(Deterministic Policy Gradient,DPG),与PolicyGradient不同,DPG对于给定的网络参数和状态直接得到最优动作策略;该算法通过强化学习的离线学习并结合深度学习,获得初步优化后的控制器参数,包括以下步骤:

S11:初始化现实策略网络和现实价值网络,并随机生成对应的神经网络参数θμ和θQ;初始化目标策略网络和目标价值网络,且令θμ'=θμ和θQ'=θQ;初始化固定大小的经验池M准备开始每一回合的训练和参数更新;现实策略网络输出记为a=μ(s|θμ),其中a为现实策略网络输出的动作值,s为现实策略网络状态值,μ为通过现实策略网络的神经参数和状态值得到的动作策略;目标策略网络输出记为a'=μ'(s'|θμ'),其中a'为目标策略网络输出的动作值,s'为目标策略网络状态值;μ'为通过目标策略网络的神经参数和状态值得到的动作策略;

S12:现实策略网络根据当前状态st,结合当前策略μ并引入随机噪声Nt选择一个动作at,并传递给环境执行动作

at=μ(st)+Nt (10)

S13:环境根据当前状态st执行动作at,转换到新的状态st+1,并产生执行后的奖励值rt,将组合(at,st,rt,st+1)称为状态转换过程,并把(at,st,rt,st+1)存入经验池M中,作为训练网络的数据集;

S14:从经验池M中随机抽取N个状态转换过程数据,将其作为训练现实策略网络和现实价值网络的mini-batch数据,将mini-batch中第i个状态转换过程记为(ai,si,ri,si+1);

S15:训练时,现实价值网络是通过最小化损失函数L(θQ)来更新θQ,即

式中,为偏导符号,其中表示L(θQ)对θQ求偏导;αQ为现实价值网络的学习率;yi为中间变量,表示目标Q值;现实策略网络通过梯度下降策略来更新θμ,即

式中,s为现实策略网络状态值;a为现实策略网络输出的动作值;表示Q(s,a|θQ)对a求偏导;表示μ(s|θμ)对参数θμ求偏导;αμ为现实策略网络的学习率;

根据式(11)和式(12)分别优化更新现实价值网络和现实策略网络参数;

S16:实现现实策略网络和现实价值网络参数更新后,与之对应的两个目标网络参数θQ'和θμ'的更新则通过软更新(soft update)方式

式中,τ为更新系数;

当完成以上步骤时,就完成了一个时间步长内的训练,下一个时间步长的训练从S12重新开始循环;当完成了所有时间步长的训练后,即为完成了一个完整回合的训练;通过回合的不停更迭则会是网络参数向最大化Q值的方向更新发展;

步骤3:将逆变器投入运行,且在运行过程中利用DDPG算法在线应用,进行动作更新策略,以适应电网的复杂运行环境。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010965127.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top