[发明专利]一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法有效

申请号：	202010433366.3	申请日：	2020-05-21
公开（公告）号：	CN111679576B	公开（公告）日：	2021-07-16
发明（设计）人：	杜宪;马艳华;孙希明;胡雪兰	申请（专利权）人：	大连理工大学
主分类号：	G05B13/04	分类号：	G05B13/04;G06N3/08;F02C9/00
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;侯明远
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进确定性策略梯度算法循环发动机控制器设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法，其特征在于，包括以下步骤：

S1.建立基于改进确定性策略梯度算法的控制系统架构

应用于变循环发动机多变量控制的基于改进确定性策略梯度算法的控制算法，在确定性策略梯度算法的Actor-Critic结构基础上，添加目标策略网络和目标Q值网络，即改进后的确定性策略梯度算法为双Actor-Critic结构；同时，为了加快神经网络的训练速度和维持算法稳定性，加入带样本优先回放机制的样本池；

S2.根据控制目标确定Actor-Critic结构的输入和输出变量

变循环发动机控制变量共八个，包括喷口膨胀面积、风扇导流叶片角度、核心机风扇导流叶片角度、低压涡轮导向器的控制角、核心机风扇的混合器面积、第一外涵道面积高、高压气机导流叶片角度和主燃烧室供油量；选取高压压气机相对转速和发动机的落压比为被控变量；设定八个变循环发动机控制变量为确定性策略梯度算法中策略网络的输出值，高压压气机相对转速和发动机落压比的稳态误差绝对值为发动机反馈回Actor-Critic结构的状态；

S3.确定奖励值函数

奖励值函数依据设计目标而定，针对变循环发动机多变量控制，奖励值函数设计为：

其中，s_t和s_t+1分别为t时刻和下一时刻的环境状态量，即本次环境的状态量比上次更靠近目标值，给予正奖励，否则给予负奖励；

S4.设置策略网络和Q值网络参数

策略网络和Q值网络均为单隐层BP神经网络，根据控制系统特性和控制目标，设置的策略网络的输入层节点个数、隐含层节点个数、输出层节点；设置Q值网络的输入层节点个数、隐含层节点个数、输出层节点个数、神经网络的激活函数；

S5.设计改进确定性策略梯度算法

S5.1初始化策略网络和Q值网络的神经网络参数：θ^μ和θ^Q；初始化样本回放池R和用于增加算法探索性的Uhlenbeck-Ornstein过程；

S5.2将策略网络和Q值网络的参数赋给对应的目标策略网络和Q值网络的参数θ^μ′和θ^Q′，即：

θ^μ′＝θ^μ，θ^Q′＝θ^Q；

S5.3计算策略网络输出

策略网络根据当前的网络参数，产生一个动作输出值μ(s_t|θ^μ)，该值和Uhlenbeck-Ornstein过程输出的N_t相加，得到策略网络的最终输出值a_t，该动作值传递给环境模型：

a_t＝μ(s_t|θ^μ)+N_t