[发明专利]一种基于深度强化学习的逆变器控制器有效

申请号：	202010965127.2	申请日：	2020-09-15
公开（公告）号：	CN112187074B	公开（公告）日：	2022-04-19
发明（设计）人：	张昌华;张坤;徐子豪	申请（专利权）人：	电子科技大学
主分类号：	H02M7/48	分类号：	H02M7/48;H02M7/5387;H02M7/493;H02M1/08;H02M1/084;H02M1/088;H02J3/38;H02J3/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习逆变器控制器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的逆变器控制器，其特征在于，包括虚拟同步发电机控制模块、深度强化学习控制模块，所述逆变器控制器模拟了同步发电机转子运动方程，并通过深度强化学习控制模块调整虚拟转动惯量，以获得较好的电力系统低频振荡抑制效果；

首先是虚拟同步发电机控制模块，其中包括dq变换模块、输出有功无功和端电压有效值计算模块、调制波信号幅值计算模块、模拟转子运动方程模块、dq反变换和PWM调制模块：

——dq变换模块用于将逆变器LC滤波器上电容的三相电压e_a、e_b、e_c和电感上流过的三相电流i_a、i_b、i_c，分解到逆变器的同步旋转坐标系下得到其dq轴分量u_d、u_q和i_d、i_q；

——输出有功无功和端电压有效值计算模块的计算公式如式(1)所示：

式中，P为有功功率，Q为无功功率，U为输出电压幅值；

——调制波信号幅值计算模块用于计算调制波幅值E_q，所用公式为：

E_q＝∫K_e[(U_ref-U)-n(Q-Q_ref)]dt (2)

式中，U_ref为逆变器端电压的设定值；Q_ref为逆变器无功功率的设定值；K_e为放大增益；n为无功电压环节的下垂系数；E_q为逆变器调制波信号中的q轴分量，调制波信号的0轴和d轴分量均为0；

——模拟转子运动方程模块用于计算逆变器虚拟的角频率ω和调制波的相位角δ，计算公式如式(3)(4)所示：

δ＝ω_n∫ωdt (4)

式中，J为逆变器虚拟转动惯量；m为有功下垂系数；P_ref为逆变器输出有功功率的设定值；D为逆变器虚拟阻尼系数；δ为逆变器调制波相位；ω_n为角频率基准值；

——dq反变换和PWM调制模块用于将调制波信号幅值计算模块、模拟转子运动方程模块的计算结果经dq反变换后得到调制波信号u_a、u_b、u_c，再根据PWM算法生成PWM控制信号驱动三相逆变桥，实现逆变功能；

其次是深度强化学习控制模块，其作用在于调整虚拟转动惯量J，包括以下步骤：

步骤1：确定控制动作集A、状态集合S、奖励函数R、和动作价值函数Q^π(s,a)；

其中控制动作集A的表达式为：

式中，J_min和J_max为一组预先设定的虚拟转动惯量上下限的值；

状态集合S的表达式为：

S∈{(ΔP，Δω)} (6)

式中，ΔP为逆变器在某时刻的输出有功功率与设定值之差；Δω为该时刻虚拟同步发电机转速偏差，(△P,Δω)表示逆变器在该时刻输出功率P和虚拟角频率ω的偏差组合；

奖励函数R的表达式为：

式中，r(s_t,a_t)为在t时刻的系统状态s_t采取动作a_t后得到的单步奖励值；a_p、a_ω分别为有功功率差、转速偏差所占评价指标的权重系数；step为每一步的学习步长时间；R_t为从当前状态直到终止状态间所有动作产生的奖励值的加权和；T为终止状态的时刻；γ为折扣因子，决定时间的远近对奖励值的影响程度；

动作价值函数的表达式为：

式中，π为最优策略；为数学期望；

步骤2：建立逆变器的数学模型，利用DDPG(deep deterministic policy gradient)算法离线预学习，获得初步优化后的控制器参数；

其中DDPG算法为Actor-Critic框架，采用四个神经网络，即Actor网络对应策略网络，分为现实策略网络和目标策略网络，对应的神经网络参数分别为θ^μ和θ^μ'，Critic网络对应价值网络，分为现实价值网络和目标价值网络，对应的神经网络参数分别为θ^Q和θ^Q'；每个神经网络具有相同的结构，都包括2个全连接的隐藏层，2个隐藏层的神经元个数分别为N1，N2；DDPG算法采取确定性策略(Deterministic Policy Gradient，DPG)，与PolicyGradient不同，DPG对于给定的网络参数和状态直接得到最优动作策略；该算法通过强化学习的离线学习并结合深度学习，获得初步优化后的控制器参数，包括以下步骤：

S11：初始化现实策略网络和现实价值网络，并随机生成对应的神经网络参数θ^μ和θ^Q；初始化目标策略网络和目标价值网络，且令θ^μ'＝θ^μ和θ^Q'＝θ^Q；初始化固定大小的经验池M准备开始每一回合的训练和参数更新；现实策略网络输出记为a＝μ(s|θ^μ)，其中a为现实策略网络输出的动作值，s为现实策略网络状态值，μ为通过现实策略网络的神经参数和状态值得到的动作策略；目标策略网络输出记为a'＝μ'(s'|θ^μ')，其中a'为目标策略网络输出的动作值，s'为目标策略网络状态值；μ'为通过目标策略网络的神经参数和状态值得到的动作策略；

S12:现实策略网络根据当前状态s_t,结合当前策略μ并引入随机噪声N_t选择一个动作a_t，并传递给环境执行动作

a_t＝μ(s_t)+N_t (10)

S13：环境根据当前状态s_t执行动作a_t，转换到新的状态s_t+1，并产生执行后的奖励值r_t，将组合(a_t,s_t,r_t,s_t+1)称为状态转换过程，并把(a_t,s_t,r_t,s_t+1)存入经验池M中，作为训练网络的数据集；

S14：从经验池M中随机抽取N个状态转换过程数据，将其作为训练现实策略网络和现实价值网络的mini-batch数据，将mini-batch中第i个状态转换过程记为(a_i,s_i,r_i,s_i+1)；

S15：训练时，现实价值网络是通过最小化损失函数L(θ^Q)来更新θ^Q，即

式中，为偏导符号，其中表示L(θ^Q)对θ^Q求偏导；α_Q为现实价值网络的学习率；y_i为中间变量，表示目标Q值；现实策略网络通过梯度下降策略来更新θ^μ，即

式中，s为现实策略网络状态值；a为现实策略网络输出的动作值；表示Q(s,a|θ^Q)对a求偏导；表示μ(s|θ^μ)对参数θ^μ求偏导；α_μ为现实策略网络的学习率；

根据式(11)和式(12)分别优化更新现实价值网络和现实策略网络参数；

S16：实现现实策略网络和现实价值网络参数更新后，与之对应的两个目标网络参数θ^Q'和θ^μ'的更新则通过软更新(soft update)方式

式中，τ为更新系数；

当完成以上步骤时，就完成了一个时间步长内的训练，下一个时间步长的训练从S12重新开始循环；当完成了所有时间步长的训练后，即为完成了一个完整回合的训练；通过回合的不停更迭则会是网络参数向最大化Q值的方向更新发展；

步骤3：将逆变器投入运行，且在运行过程中利用DDPG算法在线应用，进行动作更新策略，以适应电网的复杂运行环境。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010965127.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种具有附加阻尼控制的逆变器控制器
下一篇：一种用于植保数据统计的农田鼠洞清理装置

同类专利

专利分类

H 电学

H02 发电、变电或配电
H02M 用于交流和交流之间、交流和直流之间、或直流和直流之间的转换以及用于与电源或类似的供电系统一起使用的设备；直流或交流输入功率至浪涌输出功率的转换；以及它们的控制或调节
H02M7-00 交流功率输入变换为直流功率输出；直流功率输入变换为交流功率输出
H02M7-02 .不可逆的交流功率输入变换为直流功率输出
H02M7-42 .不可逆的直流功率输入变换为交流功率输出的
H02M7-66 .带有可逆变的
H02M7-68 ..用静态变换器的
H02M7-86 ..用动态变换器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的逆变器控制器有效

专利文献下载