[发明专利]一种基于随机森林回归的汽油辛烷值损失预测及优化方法在审

申请号：	202110585037.5	申请日：	2021-05-27
公开（公告）号：	CN113362913A	公开（公告）日：	2021-09-07
发明（设计）人：	陈德裕;许江华;林芳;李明	申请（专利权）人：	南通大学
主分类号：	G16C20/30	分类号：	G16C20/30;G16C10/00;G06N3/00
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	张俊俊
地址：	226019 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于随机森林回归汽油辛烷值损失预测优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于随机森林回归的汽油辛烷值损失预测及优化方法，其特征在于，具体包括以下步骤：

第一步、对影响汽油辛烷值的操作变量和非操作变量数据进行预处理：

(1)统计各操作变量的数据缺失，将数据缺失达到20％以上的变量进行删除；

(2)对于变量中部分缺失的数据，用前后两个时间点的数据的平均值代替；

(3)根据3σ准则删去变量中的异常值，再用前后两个时间点的数据的平均值代替；采用3σ准则找出变量中的异常值，若某一变量下测量值x_i的剩余误差的绝对值|v_i|大于3乘以该变量下所有测量值的标准误差σ，则认为该测量值是异常的，即，

其中，表示该变量下所有测量值的算术平均值，σ表示所有测量值的标准误差

第二步、操作变量的筛选：

(1)Spearman秩相关系数筛选

Spearman秩相关系数的定义为，

当样本有相同的秩，称之为有结，需要采用平均秩法赋秩，并将Spearman秩相关系数调整为，

其中，

(2)Kendall秩相关系数筛选：

当样本观测值无结时，Kendall相关系数为，

其中，

同理，观测值中有结的，采用平均秩法赋秩，并将Kendall秩相关系数调整为，

其中，

(3)基于变异系数筛选

无量纲的变异系数，变异系数的定义为，

(4)基于树模型的嵌入法筛选：

GBDT是在Boosting方法的基础上改进的，Boosting方法可将弱分类器综合成强分类器，先由训练集和分类算法训练出一个基分类器，错误分类的样本将在下次训练时得到关注，如此一来，每进行一次迭代，分类算法对错误的分类进行改进，最后累计得到一个分类效果更好的强分类器，GBDT则是在Boosting方法的基础上使每次迭代都能减少残差；

第三步、非操作变量的筛选：

(1)基于因子分析的降维：

R因子分析中不可直接观测又客观存在的共同影响因素称为公共因子，每一个变量都可以用公共因子的线性函数与特殊因子的和来表示，即：

X_i＝a_i1F₁+a_i2F₂+…+a_imF_m+ε_i，i＝1，2，...，p

其中F_m称为公共因子，ε_i称为X_i的特殊因子，该模型也可以用矩阵来表示：

X＝AF+ε

第四步、模型建立：

随机森林回归可以分析在若干自变量对因变量的影响，假设Y表示因变量，有n个观测值，能影响因变量的自变量有k个，在构建回归树的过程中，随机森林通过bootstrap重抽样方法来随机抽取部分因变量的值，从k个自变量中随机选取指定数量的变量构成分类树的节点，通过随机选取的方式能够确保每次构建的回归树都不同，基于bootstrap方法，随机森林通常能随机地生成数百甚至上千棵分类树，从这些分类树中，把重复度最高的树选作最终的结果，由回归树θ构成组合模型{h(X，θ_j)，j＝1，2，...，b}，采用j棵决策树h(X，θ_j)预测值的平均值作为随机森林回归模型最终输出的预测结果；

第五步、基于改进模拟退火算法的变量优化与汽油辛烷值预测：

(1)设定控制参数与初始解：

设定足够大的初始温度T₀，令T＝T0，再设定降温速率q(q＜1)、结束温度T_end以及每个T时的迭代次数，即Metropolis链长L，然后设定初始解S₁；

(2)二重循环：

对当前温度T和k＝1，…，L，重复步骤(3)-(7)；

(3)解变换产生新解：

对当前解S₁进行扰动产生一个新解S₂；

(4)预测产品硫含量：

利用产品硫含量预测模型来预测样本在当前调整下的产品硫含量；

(5)判别产品硫含量约束：

由于预测得到的产品硫含量并不总是小于真实的产品硫含量，为了保证真实的产品硫含量不大于5μg/g，可以保守地将要求提高为预测的产品硫含量应不大于4.8μg/g，若产品硫含量的预测值满足不大于4.8μg/g，则继续步骤(6)，否则，返回步骤(3)，重新调整变量；

(6)预测RON损失：

利用RON损失预测模型来预测样本在当前调整下的RON损失；

(7)Metropolis准则判断是否接受新解：

先计算S₂与S₁的目标函数增量df＝f(S₂)-f(S₁)，即当前调整下的RON损失预测值与上一次接受的调整下的RON损失预测值之差；若df＜0，则以概率1接受S₂作为新的当前解；否则，计算S₂的接受概率并产生(0,1)区间上均匀分布的随机数rand，若则接受S₂作为新的当前解，否则保留当前解S₁，Metropolis的抽样过程可对比物理退火过程中的等温过程，目标函数的减少可对比系统能量的降低，对于与周围环境交换热量而温度不变的封闭系统，系统状态总是自发地朝自由能减少的方向进行，当自由能达到最小时，系统达到平衡状态；

(8)终止条件判断：

若当前温度T大于预先设定的结束温度T_end，则输出当前解S₁为最优解；否则，按衰减函数T_i+1＝qT_i衰减温度T后返回步骤(2)，控制参数T的下降对应物理退火过程中的冷却过程，粒子的热运动减弱，能降低系统能量，最终达到一个较低的平衡状态。

2.一种基于随机森林回归的汽油辛烷值损失预测及优化方法，其特征在于，包括以下步骤：(1)对数据进行预处理，具体步骤如下：

第一步：统计出各数据集中存在缺失数据的变量，直接删去全部数据缺失的变量；

第二步：对部分数据缺失的变量采用前后两个时间点的数据的平均值代替；

第三步：用3σ准则统计出存在异常值的变量，将异常值删去并用前后两个时间点的数据的平均值代替；

(2)对操作变量进行筛选，具体步骤如下：

第一步：考虑到变量之间的高度非线性，基于Spearman秩相关系数和Kendall秩相关系数剔除与RON损失几乎不相关的变量；

第二步：考虑到变量之间有不同的量纲，将难以区分样本的变量剔除，基于变异系数进行筛选；

第三步：考虑到变量之间还有相互强耦联关系，两次基于GBDT模型将操作变量进行筛选；

(3)对于非操作变量进行因子分析进行降维；

(4)建立辛烷值损失预测模型，选用了随机森林回归，结合K折交叉验证方法与均方误差评价指标；