[发明专利]一种缺失数据项自动填充的方法无效
申请号: | 201110372518.4 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102521268A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 于治楼;张化祥;张云涛 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 缺失 数据项 自动 填充 方法 | ||
技术领域
本发明涉及服务器等电子设备的智能管理及数据挖掘领域,实现了在服务器等电子设备的健康信息采集过程中对数据缺失项的填充,具体地说一种缺失数据项自动填充的方法。
背景技术
在生产、管理中,很多时候需要获取一线数据,用于对生产管理进行分析、控制等。鉴于数据采集设备的限制、环境的影响、手段的缺失等原因,很多情况下不能采集到完整的生产和管理信息的数据。如申请银行账户的表格中,有些项目如年龄等,可能由于用户的疏忽或其它原因,没有填写,导致数据缺失。在有数据缺失的情况下,要完成数据分析比较困难,需要对缺失的数据项进行处理。当前学术界及生产中比较流行的做法是:(1)忽略含有缺失项的数据;(2)以该项数据的中值填充缺失项;(3)以该项数据的均值填充缺失项;(4)以该项数据的众数填充缺失项。
服务器等电子设备管理中获取信息的特点:管理中需要动态获取机箱、风扇、CPU温度、各种传感器信息。由于各种各样的原因,有些信息不能很好的获得,导致部分数据缺失。获得的数据对于分析服务器的运行状态,学习服务器等电子设备的智能管理具有重要意义,使用历史数据作为训练数据,可以通过一定的手段学习服务器等电子设备智能管理的规则,提高管理的智能性。
如当CPU温度连续多长时间高于某个阈值时,则启动风扇降温。类似的规则完全可以从收集到的服务器等电子设备历史数据中通过学习得到。多数情况下,服务器等电子设备的运行处于正常状态,因此收集到的数据中,异常状态的数据所占比例相对偏少,导致数据的不平衡。加上有些数据缺失部分数据项,如果再将缺失数据项的数据忽略掉,则用于学习的异常状态数据会更少,影响学习规则的可信性及可用性。为此,需要解决缺失数据项填充及数据不平衡问题。
目前常用的数据处理方法有平均值法和平均值法、中位数法和众数法,这集中方法各有优缺点:平均值法虽然能可靠、稳定反映数据的总体情况,但由于获取到的服务器等电子设备健康信息是一个不平衡数据集,大部分数据为反映服务器等电子设备正常运行的数据,而反映异常运行的数据只占一小部分,通过平均值填充的缺失项不具有价值,很容易受到极端数据和噪音数据的影响。
中位数法:中位数不受其数据分布两端数据的影响。因为它只利用了部分数据,没有考虑到各数据值出现频率的因素,不能很好反映数据的总体情况,所以可靠性比较差。
众数法:虽然采用此种方法取到的数是原始数据,且考虑到了数据出现频率的因素是取到的是最有可能出现的数据,且不易受到极端数据和噪音数据的影响,但是因为获取到的数据是一个不平衡数据集,从这方面来看,它同利用中数填补缺失项一样,填充的缺失项往往是一个反映服务器等电子设备正常运行时的数据,进而与真实情况相差很大,对于服务器等电子设备运行数据不适用。
本专利提供的方法(自动填充缺失数据项的随机漫步方法)可以对这些缺失项进行恰当填补,能够更好地还原原始数据,克服数据挖掘中数据集的数据缺失和数据不平衡问题,最大限度利用现有训练数据集,提高学习算法的可靠性。
发明内容
本发明的目的是提供一种缺失数据项自动填充的方法。
基于以上分析,本专利提出一种更好的缺失数据填充方法,使填充的缺失数据在概率上尽可能满足原数据未知概率分布特征的条件。数据中该项不缺失值的个数为n,首先计算该项n个数据的均值 及标准差,按照公式(1)计算需要填充数据项的缺失数据:
(公式1)
其中为均值为0,方差为1的正态分布随机数。
从理论上可以证明:这样得到的填充数它们的均值及方差,当n趋于正无穷大时与原数据的均值及方差相同。
特点:按(1)生成的缺失项数据最大可能与该项其它数据具有相同分布特征,能够最真实地反映缺失数据。
本发明的有益效果是:采用实现对缺失数据的高精度填充,这种方法可应用服务器、计算机等电子设备的工作状态等健康信息的数据采集、分析和利用领域。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110372518.4/2.html,转载请声明来源钻瓜专利网。