[发明专利]一种基于极端梯度提升算法的污水处理过程软测量方法在审

申请号：	201911267973.0	申请日：	2019-12-11
公开（公告）号：	CN110909492A	公开（公告）日：	2020-03-24
发明（设计）人：	潘丰;李畅	申请（专利权）人：	江南大学
主分类号：	G06F30/20	分类号：	G06F30/20
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉
地址：	214122 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于极端梯度提升算法污水处理过程测量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于极端梯度提升算法的污水处理过程软测量方法，其特征在于，包括以下步骤：

(1)采集一批污水处理过程中的生产数据，建立用于缺失数据填充的邻近算法模型；

(2)通过数据库收集污水处理过程中能在线测量的变量值，作为软测量建模样本的输入量，离线测量所得的出水氨氮浓度值，作为软测量建模样本的输出量，组成软测量建模样本集X＝[x₁,x₂,…,x_i,…,x_n]^T，X∈R^n×m，x_i是1×m维的行向量，表示第i个样本，i＝1,2,…n，n为样本总数，m为过程变量总数，R为实数集；

(3)使用步骤(1)得到的邻近算法模型对软测量建模样本集X进行缺失值的预测和填充，将处理后的软测量建模样本集分为两个数据集，为软测量建模的训练数据集，N₁为训练数据集的组数，A_k是1×d维的行向量，为软测量建模样本的一组输入量，是A_k对应的训练样本数据的真实值，k＝1,2,…,N₁，d为每组输入量的维数；为软测量建模的测试数据集，N₂为测试数据集的组数，B_k是1×d维的行向量，为软测量建模样本的一组输入量，y_k是B_k对应的测试数据的真实值，k＝1,2,…,N₂；d+1＝m，N₁+N₂＝n；

(4)使用网格搜索法寻找极端梯度提升算法中各参数的最优值；

(5)获得最优参数后，建立软测量模型；采集新的数据集N₃为新数据集的组数，C_k是1×d维的行向量，k＝1,2,…,N₃，将输入基于极端梯度提升算法的污水处理过程出水氨氮浓度的软测量模型中，得到实时的出水氨氮浓度值是对应C_k的软测量模型输出值；

其中，所述步骤(1)中建立用于缺失数据填充的邻近算法模型的具体操作步骤如下：

①采集一批污水处理过程中的生产数据，构成建立最优邻近算法模型的数据集，将数据集中的数值型属性列进行数据归一化处理，以满足邻近模型支持的数据格式；

②将归一化处理后的数据随机拆分为建模数据集和验证数据集；

③设定邻近模型参数α的区间，基于建模数据集和不同的邻近模型参数α，构建邻近模型簇Λ；

④将验证数据集剔除特定属性列数据，构建缺失值数据和缺失值矩阵，带入到模型中得到预测数据集；

⑤利用模型优化目标函数筛选最优邻近模型，由于污水处理过程中参数数据缺失值类型为数值型数据，目标函数S为

其中p表示验证集的数据样本数，g_f表示验证集中每个样本在缺失值数据列的真实值，为g_f对应的模型填充值，ε为平滑因子；

⑥基于验证数据集的原始数据和预测数据，依据模型优化目标函数对邻近模型簇筛选得到最优邻近模型Λ_best；

所述步骤(4)使用网格搜索法进行寻找极端梯度提升算法中各参数最优值的具体操作步骤如下：

①设置7个参数初始搜索范围为eta∈[0.1,1]，n_estimators∈[50,800]，max_depth∈[1,15]，min_child_weight∈[1,5]，gamma∈[0,1]，subsample∈[0,1]，colsample_bytree∈[0,1]，搜索步长分别为eat：0.1，n_estimators：10，max_depth：1，min_child_weight：1，gamma：0.1，subsample：0.1，colsample_bytree：0.1；

②选取迭代器类型为gbtree，损失函数类型为linear，选取回归率为交叉验证参数，回归率R_s为

其中表示由软测量模型所得到的估计值，表示前k个真实值的平均值，即

③采用网格搜索方法，搜索7个参数在取值范围内的组合Q_r⁽⁷⁾，Q_r⁽⁷⁾表示7个参数的取值组合，组合数共有r组；初始化迭代次数s＝1，回归率最大值R_m＝0；

④取第s组参数组合Q_s⁽⁷⁾，基于极端梯度提升算法建立软测量模型；

⑤计算R_s，当R_s>R_m成立时，则R_m＝R_s，Q_r+1⁽⁷⁾＝Q_s⁽⁷⁾；否则转到⑥；

⑥当s<r成立时，则s＝s+1，转到④；否则转到⑦；

⑦取极端梯度提升算法的7个参数为Q_r+1⁽⁷⁾，存入软测量数据库，得到软测量模型；

所述步骤④具体操作步骤如下：

A取第s组参数组合Q_s⁽⁷⁾，基于训练数据集产生一个决策树模型为

F＝{f(x)＝ω_q(x)} (1)

其中f(x)表示第x棵回归树，F表示了回归树的集合空间，q(x)表示样本与树模型中叶子节点的映射关系，ω_q(x)则表示叶子节点的权重ω与树结构q之间的映射关系；

B设置最大迭代次数为K，极端梯度提升算法的目标函数L(φ)为