[发明专利]一种基于极端梯度提升算法的污水处理过程软测量方法在审

专利信息
申请号: 201911267973.0 申请日: 2019-12-11
公开(公告)号: CN110909492A 公开(公告)日: 2020-03-24
发明(设计)人: 潘丰;李畅 申请(专利权)人: 江南大学
主分类号: G06F30/20 分类号: G06F30/20
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉
地址: 214122 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 极端 梯度 提升 算法 污水处理 过程 测量方法
【权利要求书】:

1.一种基于极端梯度提升算法的污水处理过程软测量方法,其特征在于,包括以下步骤:

(1)采集一批污水处理过程中的生产数据,建立用于缺失数据填充的邻近算法模型;

(2)通过数据库收集污水处理过程中能在线测量的变量值,作为软测量建模样本的输入量,离线测量所得的出水氨氮浓度值,作为软测量建模样本的输出量,组成软测量建模样本集X=[x1,x2,…,xi,…,xn]T,X∈Rn×m,xi是1×m维的行向量,表示第i个样本,i=1,2,…n,n为样本总数,m为过程变量总数,R为实数集;

(3)使用步骤(1)得到的邻近算法模型对软测量建模样本集X进行缺失值的预测和填充,将处理后的软测量建模样本集分为两个数据集,为软测量建模的训练数据集,N1为训练数据集的组数,Ak是1×d维的行向量,为软测量建模样本的一组输入量,是Ak对应的训练样本数据的真实值,k=1,2,…,N1,d为每组输入量的维数;为软测量建模的测试数据集,N2为测试数据集的组数,Bk是1×d维的行向量,为软测量建模样本的一组输入量,yk是Bk对应的测试数据的真实值,k=1,2,…,N2;d+1=m,N1+N2=n;

(4)使用网格搜索法寻找极端梯度提升算法中各参数的最优值;

(5)获得最优参数后,建立软测量模型;采集新的数据集N3为新数据集的组数,Ck是1×d维的行向量,k=1,2,…,N3,将输入基于极端梯度提升算法的污水处理过程出水氨氮浓度的软测量模型中,得到实时的出水氨氮浓度值是对应Ck的软测量模型输出值;

其中,所述步骤(1)中建立用于缺失数据填充的邻近算法模型的具体操作步骤如下:

①采集一批污水处理过程中的生产数据,构成建立最优邻近算法模型的数据集,将数据集中的数值型属性列进行数据归一化处理,以满足邻近模型支持的数据格式;

②将归一化处理后的数据随机拆分为建模数据集和验证数据集;

③设定邻近模型参数α的区间,基于建模数据集和不同的邻近模型参数α,构建邻近模型簇Λ;

④将验证数据集剔除特定属性列数据,构建缺失值数据和缺失值矩阵,带入到模型中得到预测数据集;

⑤利用模型优化目标函数筛选最优邻近模型,由于污水处理过程中参数数据缺失值类型为数值型数据,目标函数S为

其中p表示验证集的数据样本数,gf表示验证集中每个样本在缺失值数据列的真实值,为gf对应的模型填充值,ε为平滑因子;

⑥基于验证数据集的原始数据和预测数据,依据模型优化目标函数对邻近模型簇筛选得到最优邻近模型Λbest

所述步骤(4)使用网格搜索法进行寻找极端梯度提升算法中各参数最优值的具体操作步骤如下:

①设置7个参数初始搜索范围为eta∈[0.1,1],n_estimators∈[50,800],max_depth∈[1,15],min_child_weight∈[1,5],gamma∈[0,1],subsample∈[0,1],colsample_bytree∈[0,1],搜索步长分别为eat:0.1,n_estimators:10,max_depth:1,min_child_weight:1,gamma:0.1,subsample:0.1,colsample_bytree:0.1;

②选取迭代器类型为gbtree,损失函数类型为linear,选取回归率为交叉验证参数,回归率Rs

其中表示由软测量模型所得到的估计值,表示前k个真实值的平均值,即

③采用网格搜索方法,搜索7个参数在取值范围内的组合Qr(7),Qr(7)表示7个参数的取值组合,组合数共有r组;初始化迭代次数s=1,回归率最大值Rm=0;

④取第s组参数组合Qs(7),基于极端梯度提升算法建立软测量模型;

⑤计算Rs,当Rs>Rm成立时,则Rm=Rs,Qr+1(7)=Qs(7);否则转到⑥;

⑥当s<r成立时,则s=s+1,转到④;否则转到⑦;

⑦取极端梯度提升算法的7个参数为Qr+1(7),存入软测量数据库,得到软测量模型;

所述步骤④具体操作步骤如下:

A取第s组参数组合Qs(7),基于训练数据集产生一个决策树模型为

F={f(x)=ωq(x)} (1)

其中f(x)表示第x棵回归树,F表示了回归树的集合空间,q(x)表示样本与树模型中叶子节点的映射关系,ωq(x)则表示叶子节点的权重ω与树结构q之间的映射关系;

B设置最大迭代次数为K,极端梯度提升算法的目标函数L(φ)为

其中

L(φ)由损失函数和复杂度两部分组成,损失函数表示第i个样本的估计值和真实值之间的训练误差;fk表示每一棵树模型,Ω(fk)则表示每棵树的复杂度,T表示叶子节点的数量,γ和λ是控制模型结构的正则参数,γ用于限制单棵树生成时的叶子节点的数量,λ则用于控制步长;

对式(2)进行二阶泰勒展开,得到第t轮迭代的目标函数L(t)

其中代表一阶展开项系数,代表二阶展开项系数,代表第t-1次迭代后第i个样本的估计值,进一步将正则项Ω(ft)展开并化简,第t轮迭代的目标函数L(t)写为

其中ωj为第j个叶子节点的权重值,Ij表示在第j个叶子结点上的样本,Tt表示第t轮迭代时叶子节点的数量;

对式(6)求导获得使目标函数L(t)最小的最优权重值ωj*

C初始化迭代次数t=1;

D计算第t轮迭代的损失函数由式(6)计算L(t),由式(7)计算ωj*;计算第t次迭代的回归树ft(x),对应的最优权重值为ωj*;计算第t次迭代的第i个样本Ai的估计值

E当t=K成立时,则转到步骤F;否则,t=t+1,转到步骤D;

F将每轮迭代产生的决策树线性组合,获得集成了K棵决策树的基于极端梯度提升算法的软测量模型为

其中ft(x)表示第t次迭代得到的树模型;

G将测试数据集输入到软测量模型中,得到估计值

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911267973.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top