[发明专利]一种基于随机森林回归的汽油辛烷值损失预测及优化方法在审
申请号: | 202110585037.5 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113362913A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 陈德裕;许江华;林芳;李明 | 申请(专利权)人: | 南通大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C10/00;G06N3/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 张俊俊 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 回归 汽油 辛烷值 损失 预测 优化 方法 | ||
1.一种基于随机森林回归的汽油辛烷值损失预测及优化方法,其特征在于,具体包括以下步骤:
第一步、对影响汽油辛烷值的操作变量和非操作变量数据进行预处理:
(1)统计各操作变量的数据缺失,将数据缺失达到20%以上的变量进行删除;
(2)对于变量中部分缺失的数据,用前后两个时间点的数据的平均值代替;
(3)根据3σ准则删去变量中的异常值,再用前后两个时间点的数据的平均值代替;采用3σ准则找出变量中的异常值,若某一变量下测量值xi的剩余误差的绝对值|vi|大于3乘以该变量下所有测量值的标准误差σ,则认为该测量值是异常的,即,
其中,表示该变量下所有测量值的算术平均值,σ表示所有测量值的标准误差
第二步、操作变量的筛选:
(1)Spearman秩相关系数筛选
Spearman秩相关系数的定义为,
当样本有相同的秩,称之为有结,需要采用平均秩法赋秩,并将Spearman秩相关系数调整为,
其中,
(2)Kendall秩相关系数筛选:
当样本观测值无结时,Kendall相关系数为,
其中,
同理,观测值中有结的,采用平均秩法赋秩,并将Kendall秩相关系数调整为,
其中,
(3)基于变异系数筛选
无量纲的变异系数,变异系数的定义为,
(4)基于树模型的嵌入法筛选:
GBDT是在Boosting方法的基础上改进的,Boosting方法可将弱分类器综合成强分类器,先由训练集和分类算法训练出一个基分类器,错误分类的样本将在下次训练时得到关注,如此一来,每进行一次迭代,分类算法对错误的分类进行改进,最后累计得到一个分类效果更好的强分类器,GBDT则是在Boosting方法的基础上使每次迭代都能减少残差;
第三步、非操作变量的筛选:
(1)基于因子分析的降维:
R因子分析中不可直接观测又客观存在的共同影响因素称为公共因子,每一个变量都可以用公共因子的线性函数与特殊因子的和来表示,即:
Xi=ai1F1+ai2F2+…+aimFm+εi,i=1,2,...,p
其中Fm称为公共因子,εi称为Xi的特殊因子,该模型也可以用矩阵来表示:
X=AF+ε
第四步、模型建立:
随机森林回归可以分析在若干自变量对因变量的影响,假设Y表示因变量,有n个观测值,能影响因变量的自变量有k个,在构建回归树的过程中,随机森林通过bootstrap重抽样方法来随机抽取部分因变量的值,从k个自变量中随机选取指定数量的变量构成分类树的节点,通过随机选取的方式能够确保每次构建的回归树都不同,基于bootstrap方法,随机森林通常能随机地生成数百甚至上千棵分类树,从这些分类树中,把重复度最高的树选作最终的结果,由回归树θ构成组合模型{h(X,θj),j=1,2,...,b},采用j棵决策树h(X,θj)预测值的平均值作为随机森林回归模型最终输出的预测结果;
第五步、基于改进模拟退火算法的变量优化与汽油辛烷值预测:
(1)设定控制参数与初始解:
设定足够大的初始温度T0,令T=T0,再设定降温速率q(q<1)、结束温度Tend以及每个T时的迭代次数,即Metropolis链长L,然后设定初始解S1;
(2)二重循环:
对当前温度T和k=1,…,L,重复步骤(3)-(7);
(3)解变换产生新解:
对当前解S1进行扰动产生一个新解S2;
(4)预测产品硫含量:
利用产品硫含量预测模型来预测样本在当前调整下的产品硫含量;
(5)判别产品硫含量约束:
由于预测得到的产品硫含量并不总是小于真实的产品硫含量,为了保证真实的产品硫含量不大于5μg/g,可以保守地将要求提高为预测的产品硫含量应不大于4.8μg/g,若产品硫含量的预测值满足不大于4.8μg/g,则继续步骤(6),否则,返回步骤(3),重新调整变量;
(6)预测RON损失:
利用RON损失预测模型来预测样本在当前调整下的RON损失;
(7)Metropolis准则判断是否接受新解:
先计算S2与S1的目标函数增量df=f(S2)-f(S1),即当前调整下的RON损失预测值与上一次接受的调整下的RON损失预测值之差;若df<0,则以概率1接受S2作为新的当前解;否则,计算S2的接受概率并产生(0,1)区间上均匀分布的随机数rand,若则接受S2作为新的当前解,否则保留当前解S1,Metropolis的抽样过程可对比物理退火过程中的等温过程,目标函数的减少可对比系统能量的降低,对于与周围环境交换热量而温度不变的封闭系统,系统状态总是自发地朝自由能减少的方向进行,当自由能达到最小时,系统达到平衡状态;
(8)终止条件判断:
若当前温度T大于预先设定的结束温度Tend,则输出当前解S1为最优解;否则,按衰减函数Ti+1=qTi衰减温度T后返回步骤(2),控制参数T的下降对应物理退火过程中的冷却过程,粒子的热运动减弱,能降低系统能量,最终达到一个较低的平衡状态。
2.一种基于随机森林回归的汽油辛烷值损失预测及优化方法,其特征在于,包括以下步骤:(1)对数据进行预处理,具体步骤如下:
第一步:统计出各数据集中存在缺失数据的变量,直接删去全部数据缺失的变量;
第二步:对部分数据缺失的变量采用前后两个时间点的数据的平均值代替;
第三步:用3σ准则统计出存在异常值的变量,将异常值删去并用前后两个时间点的数据的平均值代替;
(2)对操作变量进行筛选,具体步骤如下:
第一步:考虑到变量之间的高度非线性,基于Spearman秩相关系数和Kendall秩相关系数剔除与RON损失几乎不相关的变量;
第二步:考虑到变量之间有不同的量纲,将难以区分样本的变量剔除,基于变异系数进行筛选;
第三步:考虑到变量之间还有相互强耦联关系,两次基于GBDT模型将操作变量进行筛选;
(3)对于非操作变量进行因子分析进行降维;
(4)建立辛烷值损失预测模型,选用了随机森林回归,结合K折交叉验证方法与均方误差评价指标;
(5)基于改进模拟退火算法对主要变量进行优化,根据Metropolis准则接受微调后的变量结果,对辛烷值损失进行预测及优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110585037.5/1.html,转载请声明来源钻瓜专利网。