[发明专利]一种基于随机森林集成的河流浊度软测量方法在审
申请号: | 202010204791.5 | 申请日: | 2020-03-22 |
公开(公告)号: | CN111368939A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 顾锞;乔俊飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G01N21/25 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 集成 河流 浊度 测量方法 | ||
1.一种基于随机森林集成的河流浊度软测量方法,其特征在于:
先用一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα为域的维度,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样;输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),将集成的输出表示为:
其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有
定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为
其中,y的期望输出是Gi(y)是第i个基随机森林学习器的输出;为集成的输出。为集成的输出。
第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Ei=∫Ei(y)P(y)dy (4)
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei表示第i个基学习器的自相关性和其泛化误差相等;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差;
结合公式(2)和公式(4),得到集成泛化误差为:
其中,gi,gj为取值区间[0,1]的权重的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是
进一步结合公式(6)和公式(7)推导出集成误差表示为:
其中,gi,gj为取值区间[0,1]的权重的权重;Cij为第i为第i和第j个基随机森林学习器的相关性;
设定所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:
其中,k是基随机森林学习器的总个数;Cij为第i为第i和第j个基随机森林学习器的相关性;
观察公式(2)-(9),如果第l个基随机森林学习器被删除的话,将会得到新的集成泛化误差
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;
综合公式(9)和公式(10),得到以下结论,如果集成泛化误差小于表示误差在减小,那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作,将这个过程定义为:
其中,Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器表示第l个基随机森林学习器的泛化误差;合并公式(9)和公式(11):
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
其中,THl为第l个基随机森林学习器的动态阈值;Cij为第i为第i和第j个基随机森林学习器的相关性Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
根据公式(1)-(13),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(13)所定义的关系时,就对其进行删除;
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值;具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数;然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值;定义河流浊度为S:
其中,w是一个用来进行集成的权重向量;wT表示向量w的转置;是一个映射函数;
使用岭回归来求解w;具体来说,通过添加L2约束‖·‖2来定义损失函数:
其中,λ是一个正则化参数,将其值设置为le5;s为保留的基随机森林学习器的输出;表示河流浊度的真实值;
通过最小化这个损失函数,得到如下的权重求解公式:
其中,w*为要得到的最优权重;为第m个基随机森林学习器对应的河流浊度真实值;sm表示第m个基随机森林学习器的浊度预测值;
对于w*的求解,是通过对公式(19)进行求导,使其等于0:
其中,I是一个单位矩阵;sT为s的转置;表示河流浊度的真实值;
最后,将最优的w代入公式(16),得到河流浊度的最终预测值为:
其中,为最终求解得到的第m个基学习器的最优权重值;sm表示第m个基随机森林学习器的浊度预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010204791.5/1.html,转载请声明来源钻瓜专利网。