[发明专利]一种基于XGBoost气温预测数据修正的方法在审
申请号: | 202111049643.1 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113743013A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 徐珍 | 申请(专利权)人: | 成都卡普数据服务有限责任公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 李玉兴 |
地址: | 610000 四川省成都市武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xgboost 气温 预测 数据 修正 方法 | ||
1.一种基于XGBoost气温预测数据修正的方法,其特征在于,包括以下步骤:
S1、获取历史预报数据和历史观测数据;
S2、对步骤S1获取到的数据进行预处理,包括数据重复性检查、界限值检查、极值检查、时间一致性检查和空间一致性检查,通过预处理消除错误数据后,将得到的历史预报数据和历史观测数据进行时空上的近邻匹配,获得时空匹配后的数据;
S3、对预处理后的历史预报数据进行质量检测,具体为使用RMSE均方根误差作为检测结果:
其中n为有效样本量,yi为i时刻某个气象要素的标准数据,为i时刻对应气象要素的预报值;
S4、将步骤S2得到的时空匹配后的数据进行时空特征的提取,包括预测时间的年、月、小时和预测点位的海拔高度值,获得时空特征值;
使用历史预报数据的气象特征和时空特征值构成历史预报特征值,并对历史预报特征值进行标准化处理,形成原始特征集X;使用历史观测数据中的气温作为标签数据Y;选用随机森林模型进行特征选择:定义模型中feature_importances_参数值表示随机森林模型在拟合后认为的所给训练属性列的重要程度,步骤如下:a)对原始特征集X和标签数据Y分别按照7∶3的比例划分训练集(Xtrain,Ytrain)和测试集(Xtest,Ytest),利用随机森林模型对训练集进行拟合训练;b)对随机森林中的特征变量按照VI降序排序;c)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集;d)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;e)重复以上步骤,直到剩下m个特征,记为(X1,X2,…,Xm);
S5、令步骤S4得到的特征数据集(X1,X2,…,Xm)的时间序列为t0,t1,t2,…,tn,选择时间为t0,t1,t2,…,ti的数据为训练数据集train,0<i<n,时间为ti+1,ti+2,…,tn的数据为测试数据集test,利用XGBoost对训练数据集进行拟合训练,再将训练出的模型对测试数据集进行预测测试,最终选择出收敛、预测准确率较高且鲁棒性较好的修正模型;
计算修正模型修正后的气温预测数据和气温观测数据的RMSE,并与步骤S3得到的检测结果进行对比,若修正后的RMSE小于步骤S3得到的RMSE,则认为得到的修正模型是有效的,否则回到步骤S5重新选择训练数据集进行训练;
S6、利用得到的修正模型对目标气温预测数据进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都卡普数据服务有限责任公司,未经成都卡普数据服务有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111049643.1/1.html,转载请声明来源钻瓜专利网。