[发明专利]一种虚拟化环境下的多元数据清洗技术在审
申请号: | 201611002341.8 | 申请日: | 2016-11-15 |
公开(公告)号: | CN106776703A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 肖国玉;王瑞青;高广涛;周专科;陈建楠;徐金龙;刘凯;李娜 | 申请(专利权)人: | 上海汉邦京泰数码技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200093 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟 环境 多元 数据 清洗 技术 | ||
技术领域
本发明涉及数据处理技术领域,具体是一种虚拟化环境下的多元数据清洗技术。
背景技术
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给数据分析引擎,确认是否过滤掉还是由数据分析引擎修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
目前数据清洗方面主要需要克服的问题包括检查数据一致性,处理无效值和缺失值。
1.一致性检查
一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用报警等级的区间在0到7之间的变量出现了8值,ip地址信息不合理,都应视为不合理数据。具有逻辑上不一致性的答案可能以多种形式出现:例如,责任人信息错误不匹配;或者发生时间错误。发现不一致时,要记录序号、变量名称、错误类别等,便于进一步核对和纠正。
2.无效值和缺失值的处理
由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
估算 最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,责任人的信息缺失可以通过资产管理里面计算机相关信息获取对人员信息做到关联获取。
整例删除是剔除含有缺失值的样本。由于数据可能存在缺失值,这种做法的结果可能导致有效样本量减少,造成后期的责任认定出现偏差。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。
变量删除如果某一变量的无效值和缺失值很多,而且该变量对于分析引擎进行的责任认定不重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。
成对删除是用一个特殊码代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。
采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。
一般来说,数据清洗是将数据进行精简以去除重复记录,并使剩余部分转换成标准可接收格式的过程。数据清洗标准模型是将数据输入到数据清洗处理器,通过一系列步骤“ 清洗”数据,然后以期望的格式输出清洗过的数据。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。
对数据的清洗采用以下几种方法来解决:
1.解决不完整数据( 即值缺失)的方法
大多数情况下,缺失的值可以手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。
2.错误值的检测及解决方法
用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用规则库的形式检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。
3.重复记录的检测及消除方法
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。
4.不一致性( 数据源内部及数据源之间)的检测及解决方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海汉邦京泰数码技术有限公司,未经上海汉邦京泰数码技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611002341.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置