[发明专利]一种基于相似性搜索的组合模型预测水位的方法有效
申请号: | 201510360109.0 | 申请日: | 2015-06-25 |
公开(公告)号: | CN105046321B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 张鹏程;肖艳;马辉;孙颖桃;韩晴;曾金伟 | 申请(专利权)人: | 河海大学 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06K9/62;G01F23/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似性 搜索 组合 模型 预测 水位 方法 | ||
1.一种基于相似性搜索的组合模型预测水位的方法,其特征在于,包括:
a)数据预处理模块:包括处理空缺和错误数据;填补空缺数据时按照空缺数据的种类分为四种,分别进行不同的填补操作;修正错误数据时,首先通过3σ准则判断出错误数据,然后根据错误数据的特征按照填补空缺数据的方法进行修正;
b)确定待匹配序列模块:利用相关系数从待预测日前几日的水位中挑选出与待预测日相关的连续几日水位作为待匹配序列;
相关系数计算公式如公式(1)所示:
xi代表前i年与待预测日前一日同期的水位,yi代表前i年与待预测日同期的水位,代表这n年待预测日前一日同期水位的平均值,代表这n年待预测日同期水位的平均值,r就是x与y的相关系数;
c)相似性搜索模块:将待预测日前的往年历史水位时间序列作为待搜索序列,利用动态弯曲距离从待搜索序列中查找与待匹配序列距离大于阈值的一系列序列,将这些序列及其后一日水位从训练集中剔除,剩下的序列将作为降维后的训练集输入到组合预测模型中;
相似性搜索模块执行流程包括如下步骤:
步骤101,确定好待匹配序列后,将待预测日前的往年历史水位时间序列作为待搜索序列,将这两个序列进行Min-Max标准化,将数据映射到[0,1]之间,标准化公式如(2)所示,其中max代表数据中的最大值,min代表数据中的最小值,x是原始时间序列,x’是标准化后的时间序列:
步骤102,确定滑动窗口的长度为待匹配序列的长度,起始位置为所使用的历史数据的起始时间;
步骤103,对于两个时间序列X={x1,x2,…,xn}与Y={y1,y2,…,yn},其中n为待匹配序列的长度,建立X与Y之间的距离矩阵D,其中d(xi,yj)代表的是xi与yj之间的距离:
步骤104,计算动态弯曲距离填充矩阵,并标记对应序列的起始终止时间;其中计算公式如下:
步骤105,判断滑动窗口的末尾是否到达了待预测日的前一日,如果没有则将滑动窗口向后移一位继续步骤104,否则向下执行步骤106;
步骤106,比较得出大于阈值的距离,并记录对应的起始终止时间;
d)组合预测模型模块:组合预测模型有两个基本模型,分别是基于LM算法改进的BP神经网络模型以及支持向量机模型;分别将训练集输入到这两个模型中进行训练,确定好模型后,将待匹配序列的水位分别输入这两个基本模型,得到两个模型的预测值;然后根据贝叶斯定理,根据这两个基本模型上一时刻的预测表现分别赋予它们权重,最后的预测值则是两个基本模型的预测值分别乘以它们各自的权重后相加的结果;
基于LM算法改进的BP神经网络训练流程包括如下步骤:
步骤201,初始化网络的权值阈值,并给定训练允许误差ε,以及常数μ0和β,0<β<1,令k=0,μ=μ0,其中k是指第k次迭代,μ是用户定义的学习率;
步骤202,针对第k次迭代求出对应的输出以及误差指标函数E(w);
其中,y是期望的输出,是实际的输出,P是样本总数,w是权值和阈值组成的向量,e(w)是误差;
步骤203,判断此时的训练误差是否小于允许误差ε,若是则训练结束,模型确立即进入步骤205,否则进入下一步骤204,利用LM算法调整网络的权值和阈值;
步骤204,利用LM算法调整网络的权值和阈值的步骤如下:
1)计算Jacobian矩阵:
其中,N是神经网络的层数减一,n是每一层的神经元个数即权值和阈值的总数;
2)计算权值增量Δw:
Δw=[JT(w)J(w)+μI]-1JT(w)e(w)(7)
其中,I是单位矩阵;
3)以wk+1=wk+Δw作为新一次迭代的权值和阈值向量,计算E(wk+1),若E(wk+1)<E(wk),则令k=k+1,μ=μβ,继续步骤202,否则μ=μ/β,继续步骤2);
步骤205,训练结束,模型确立。
2.如权利要求1所述的基于相似性搜索的组合模型预测水位的方法,其特征在于,数据预处理方法为:根据水文水位数据的特性,空缺数据可以分为四种:数据连续缺失超过15天、连续缺失8-15天、连续缺失4-7天和连续缺失低于4天;第一种情况则删除当月的记录,第二种情况利用前后各两年的同期历史水位的平均值代替,第三种情况用当月的平均值填补,第四种用近一周的平均值补充;对于错误数据的修正,首先根据3σ准则判断出错误数据,99.74%的正确数据都在区间(μ-3σ,μ+3σ)内,其中μ是数据的平均值,σ是数据的标准差,那么在这个区间范围外的就有理由认为是错误数据了,找出错误数据后,判断出它们属于上述四种情况的哪一个,再进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510360109.0/1.html,转载请声明来源钻瓜专利网。