[发明专利]一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法有效
申请号: | 202010433366.3 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111679576B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 杜宪;马艳华;孙希明;胡雪兰 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/08;F02C9/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 确定性 策略 梯度 算法 循环 发动机 控制器 设计 方法 | ||
1.一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法,其特征在于,包括以下步骤:
S1.建立基于改进确定性策略梯度算法的控制系统架构
应用于变循环发动机多变量控制的基于改进确定性策略梯度算法的控制算法,在确定性策略梯度算法的Actor-Critic结构基础上,添加目标策略网络和目标Q值网络,即改进后的确定性策略梯度算法为双Actor-Critic结构;同时,为了加快神经网络的训练速度和维持算法稳定性,加入带样本优先回放机制的样本池;
S2.根据控制目标确定Actor-Critic结构的输入和输出变量
变循环发动机控制变量共八个,包括喷口膨胀面积、风扇导流叶片角度、核心机风扇导流叶片角度、低压涡轮导向器的控制角、核心机风扇的混合器面积、第一外涵道面积高、高压气机导流叶片角度和主燃烧室供油量;选取高压压气机相对转速和发动机的落压比为被控变量;设定八个变循环发动机控制变量为确定性策略梯度算法中策略网络的输出值,高压压气机相对转速和发动机落压比的稳态误差绝对值为发动机反馈回Actor-Critic结构的状态;
S3.确定奖励值函数
奖励值函数依据设计目标而定,针对变循环发动机多变量控制,奖励值函数设计为:
其中,st和st+1分别为t时刻和下一时刻的环境状态量,即本次环境的状态量比上次更靠近目标值,给予正奖励,否则给予负奖励;
S4.设置策略网络和Q值网络参数
策略网络和Q值网络均为单隐层BP神经网络,根据控制系统特性和控制目标,设置的策略网络的输入层节点个数、隐含层节点个数、输出层节点;设置Q值网络的输入层节点个数、隐含层节点个数、输出层节点个数、神经网络的激活函数;
S5.设计改进确定性策略梯度算法
S5.1初始化策略网络和Q值网络的神经网络参数:θμ和θQ;初始化样本回放池R和用于增加算法探索性的Uhlenbeck-Ornstein过程;
S5.2将策略网络和Q值网络的参数赋给对应的目标策略网络和Q值网络的参数θμ′和θQ′,即:
θμ′=θμ,θQ′=θQ;
S5.3计算策略网络输出
策略网络根据当前的网络参数,产生一个动作输出值μ(st|θμ),该值和Uhlenbeck-Ornstein过程输出的Nt相加,得到策略网络的最终输出值at,该动作值传递给环境模型:
at=μ(st|θμ)+Nt
S5.4模型执行动作at,反馈回当前的单步奖励值rt和状态值st+1;
S5.5上述转换过程产生的数据元组(st,at,st+1,rt+1)作为一个样本存入样本回放池R中,作为训练策略网络和Q值网络的数据集;
S5.6从样本回放池R中,随机采样K×N个样本数据,计算样本优先级,选取样本优先级最高的N个样本,作为目标策略网络和目标Q值网络的一个mini-batch训练数据,用(st,at,st+1,rt)表示mini-batch中的单个样本数据;
S5.7计算在线Q值网络梯度
定义在线Q值网络的损失函数L为:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中,γ为折扣因子,取0.99,N为样本个数;
基于反向传播方法,求得L针对θQ的梯度采用Adam optimizer算法更新Q值网络参数:θQ;
S5.8计算在线策略网络的梯度:
在线策略网络的梯度定义为性能目标函数J对策略网络的参数θμ的梯度
采用Adam optimizer算法更新online策略网络:θμ;
S5.9更新目标策略网络和目标Q值网络的神经网络参数
采用soft update算法更新目标策略网络和Q值网络参数的参数θμ和θQ;
S5.10如达到预设的神经网络训练次数,或控制器的控制效果达到控制精度要求,则算法结束;否则返回步骤S5.2,继续下一轮的神经网络训练;
S6.神经网络训练结束后,保存步骤S3至步骤S5产生的参数,将计算出的控制变量输入到变循环发动机,对控制效果进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010433366.3/1.html,转载请声明来源钻瓜专利网。