[发明专利]一种基于深度强化学习的逆变器控制器有效
| 申请号: | 202010965127.2 | 申请日: | 2020-09-15 |
| 公开(公告)号: | CN112187074B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 张昌华;张坤;徐子豪 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | H02M7/48 | 分类号: | H02M7/48;H02M7/5387;H02M7/493;H02M1/08;H02M1/084;H02M1/088;H02J3/38;H02J3/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 逆变器 控制器 | ||
1.一种基于深度强化学习的逆变器控制器,其特征在于,包括虚拟同步发电机控制模块、深度强化学习控制模块,所述逆变器控制器模拟了同步发电机转子运动方程,并通过深度强化学习控制模块调整虚拟转动惯量,以获得较好的电力系统低频振荡抑制效果;
首先是虚拟同步发电机控制模块,其中包括dq变换模块、输出有功无功和端电压有效值计算模块、调制波信号幅值计算模块、模拟转子运动方程模块、dq反变换和PWM调制模块:
——dq变换模块用于将逆变器LC滤波器上电容的三相电压ea、eb、ec和电感上流过的三相电流ia、ib、ic,分解到逆变器的同步旋转坐标系下得到其dq轴分量ud、uq和id、iq;
——输出有功无功和端电压有效值计算模块的计算公式如式(1)所示:
式中,P为有功功率,Q为无功功率,U为输出电压幅值;
——调制波信号幅值计算模块用于计算调制波幅值Eq,所用公式为:
Eq=∫Ke[(Uref-U)-n(Q-Qref)]dt (2)
式中,Uref为逆变器端电压的设定值;Qref为逆变器无功功率的设定值;Ke为放大增益;n为无功电压环节的下垂系数;Eq为逆变器调制波信号中的q轴分量,调制波信号的0轴和d轴分量均为0;
——模拟转子运动方程模块用于计算逆变器虚拟的角频率ω和调制波的相位角δ,计算公式如式(3)(4)所示:
δ=ωn∫ωdt (4)
式中,J为逆变器虚拟转动惯量;m为有功下垂系数;Pref为逆变器输出有功功率的设定值;D为逆变器虚拟阻尼系数;δ为逆变器调制波相位;ωn为角频率基准值;
——dq反变换和PWM调制模块用于将调制波信号幅值计算模块、模拟转子运动方程模块的计算结果经dq反变换后得到调制波信号ua、ub、uc,再根据PWM算法生成PWM控制信号驱动三相逆变桥,实现逆变功能;
其次是深度强化学习控制模块,其作用在于调整虚拟转动惯量J,包括以下步骤:
步骤1:确定控制动作集A、状态集合S、奖励函数R、和动作价值函数Qπ(s,a);
其中控制动作集A的表达式为:
式中,Jmin和Jmax为一组预先设定的虚拟转动惯量上下限的值;
状态集合S的表达式为:
S∈{(ΔP,Δω)} (6)
式中,ΔP为逆变器在某时刻的输出有功功率与设定值之差;Δω为该时刻虚拟同步发电机转速偏差,(△P,Δω)表示逆变器在该时刻输出功率P和虚拟角频率ω的偏差组合;
奖励函数R的表达式为:
式中,r(st,at)为在t时刻的系统状态st采取动作at后得到的单步奖励值;ap、aω分别为有功功率差、转速偏差所占评价指标的权重系数;step为每一步的学习步长时间;Rt为从当前状态直到终止状态间所有动作产生的奖励值的加权和;T为终止状态的时刻;γ为折扣因子,决定时间的远近对奖励值的影响程度;
动作价值函数的表达式为:
式中,π为最优策略;为数学期望;
步骤2:建立逆变器的数学模型,利用DDPG(deep deterministic policy gradient)算法离线预学习,获得初步优化后的控制器参数;
其中DDPG算法为Actor-Critic框架,采用四个神经网络,即Actor网络对应策略网络,分为现实策略网络和目标策略网络,对应的神经网络参数分别为θμ和θμ',Critic网络对应价值网络,分为现实价值网络和目标价值网络,对应的神经网络参数分别为θQ和θQ';每个神经网络具有相同的结构,都包括2个全连接的隐藏层,2个隐藏层的神经元个数分别为N1,N2;DDPG算法采取确定性策略(Deterministic Policy Gradient,DPG),与PolicyGradient不同,DPG对于给定的网络参数和状态直接得到最优动作策略;该算法通过强化学习的离线学习并结合深度学习,获得初步优化后的控制器参数,包括以下步骤:
S11:初始化现实策略网络和现实价值网络,并随机生成对应的神经网络参数θμ和θQ;初始化目标策略网络和目标价值网络,且令θμ'=θμ和θQ'=θQ;初始化固定大小的经验池M准备开始每一回合的训练和参数更新;现实策略网络输出记为a=μ(s|θμ),其中a为现实策略网络输出的动作值,s为现实策略网络状态值,μ为通过现实策略网络的神经参数和状态值得到的动作策略;目标策略网络输出记为a'=μ'(s'|θμ'),其中a'为目标策略网络输出的动作值,s'为目标策略网络状态值;μ'为通过目标策略网络的神经参数和状态值得到的动作策略;
S12:现实策略网络根据当前状态st,结合当前策略μ并引入随机噪声Nt选择一个动作at,并传递给环境执行动作
at=μ(st)+Nt (10)
S13:环境根据当前状态st执行动作at,转换到新的状态st+1,并产生执行后的奖励值rt,将组合(at,st,rt,st+1)称为状态转换过程,并把(at,st,rt,st+1)存入经验池M中,作为训练网络的数据集;
S14:从经验池M中随机抽取N个状态转换过程数据,将其作为训练现实策略网络和现实价值网络的mini-batch数据,将mini-batch中第i个状态转换过程记为(ai,si,ri,si+1);
S15:训练时,现实价值网络是通过最小化损失函数L(θQ)来更新θQ,即
式中,为偏导符号,其中表示L(θQ)对θQ求偏导;αQ为现实价值网络的学习率;yi为中间变量,表示目标Q值;现实策略网络通过梯度下降策略来更新θμ,即
式中,s为现实策略网络状态值;a为现实策略网络输出的动作值;表示Q(s,a|θQ)对a求偏导;表示μ(s|θμ)对参数θμ求偏导;αμ为现实策略网络的学习率;
根据式(11)和式(12)分别优化更新现实价值网络和现实策略网络参数;
S16:实现现实策略网络和现实价值网络参数更新后,与之对应的两个目标网络参数θQ'和θμ'的更新则通过软更新(soft update)方式
式中,τ为更新系数;
当完成以上步骤时,就完成了一个时间步长内的训练,下一个时间步长的训练从S12重新开始循环;当完成了所有时间步长的训练后,即为完成了一个完整回合的训练;通过回合的不停更迭则会是网络参数向最大化Q值的方向更新发展;
步骤3:将逆变器投入运行,且在运行过程中利用DDPG算法在线应用,进行动作更新策略,以适应电网的复杂运行环境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010965127.2/1.html,转载请声明来源钻瓜专利网。





