[发明专利]基于分箱灰色预测的波动数据缺失值处理方法及装置在审
| 申请号: | 201710645506.1 | 申请日: | 2017-07-31 |
| 公开(公告)号: | CN107463531A | 公开(公告)日: | 2017-12-12 |
| 发明(设计)人: | 李青海;简宋全;邹立斌;侯大勇 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
| 主分类号: | G06F17/15 | 分类号: | G06F17/15;G06F17/18 |
| 代理公司: | 重庆强大凯创专利代理事务所(普通合伙)50217 | 代理人: | 隋金艳,陈家辉 |
| 地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 灰色 预测 波动 数据 缺失 处理 方法 装置 | ||
技术领域
本发明涉及数据处理技术,特别涉及一种基于分箱灰色预测的波动数据缺失值处理方法。
背景技术
时间序列是将某种统计数据(如近几年的全球气候统计数据、某一地区按时间的人口统计数据或网络管理中的各种统计数据等),按时间先后顺序排列所形成的数列,时间序列预测法就是通过对时间序列的性质进行分析,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。通常情况下,统计数据不一定是完整的,往往会出现数据缺失的问题,针对数据缺失值的填补问题,特别是针对波动数据缺失值的填补问题,在现有的方法中还未有较好的处理方法。通常情况下处理缺失数据的方法主要采取忽略元祖,人工填写,使用属性中心度(入均值或中位数)等方法,然而,往往这些方法预测出的缺失值与统计数据本身差异较大,通过这种方法填补缺失值容易导致后期预测出现偏差。
发明内容
本发明的一个目的是提供一种可较准确的填补缺失值的基于分箱灰色预测的波动数据缺失值处理方法。
发明方案如下:基于分箱灰色预测的波动数据缺失值处理方法,包括以下步骤:
a、读取一组按时间序列排列的波动数据;
b、遍历波动数据,并标记缺失值,确定哪个箱中存在缺失数据;
c、采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;
d、分箱:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;
e、缺失值填补,在标记有缺失值的箱中,采用灰色预测法,用最小二乘法对每个箱中的数据进行线性拟合,再带入坐标计算出缺失值;
f、导出所填补的所有缺失值。
进一步,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
进一步,灰色预测法采用的公式为:
本发明的另一目的是提供一种可较准确的填补缺失值的基于分箱灰色预测的波动数据缺失值处理装置,包括读取模块,用于读取一组波动数据;
数据处理模块,接收读取模块传输的波动数据,所述数据处理模块用于遍历该组波动数据并标记缺失值,并采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;所述数据处理模块还用于将该组波动数据进行分箱处理,具体是:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;所述数据处理模块还用于进行缺失值的填补,具体是:在标记有缺失值的箱中,采用灰色预测法,采用缺失值的前、后值进行线性填补,对于连续缺失的数据,采用前、后值的顺延数据进行填补;
导出模块,用于接收所述数据处理模块传输的所有的缺失值,并导出所有的缺失值。
进一步,在数据处理模块中,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
进一步,在数据处理模块中,灰色预测法采用的公式为:
进一步,还包括用户交互模块,所述用户交互模块用于与数据处理模块的双向信息交互。方便用户的操作。
进一步,还包括与数据处理模块双向数据传输的数据存储模块,所述数据存储模块用于存储数据处理模块中的所有缺失值数据,以及填补完所有缺失值的波动数据。以便于使用这些数据时,可随时调用。
上述基于分箱灰色预测的波动数据缺失值处理方法及装置的有益效果在于:针对数据的缺失值处理,现有方法大多是简单的用一个估算值,例如手动添加一个值,或是取数据的平均值或中位数等,这些方法虽然简单,但仅仅对平稳数据有较好的预测效果,但是对于波动数据而言,很容易使数据与原始数据产生偏差,预测值不准确。将按时间序列排序的波动数据进行分箱处理,可以使波动数据转化为n组平稳数据,再用灰色预测方法进行预测,通过使用已有数据的大部分信息来预测缺失值,可保证预测的缺失值的准确性。
附图说明
图1为本发明基于分箱灰色预测的波动数据缺失值处理方法实施例的流程图;
图2为本发明基于分箱灰色预测的波动数据缺失值处理装置实施例的原理性框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710645506.1/2.html,转载请声明来源钻瓜专利网。





