[发明专利]一种数据质量检测方法和装置在审
申请号: | 201510272664.8 | 申请日: | 2015-05-26 |
公开(公告)号: | CN104820720A | 公开(公告)日: | 2015-08-05 |
发明(设计)人: | 白贤锋 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 质量 检测 方法 装置 | ||
技术领域
本发明涉及数据仓库技术,特别是涉及一种数据质量检测方法和装置。
背景技术
数据仓库(Data Warehouse,DW或DWH)是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
抽取-转换-加载(Extract-Transform-Load,ETL)过程是一种将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的数据处理过程。ETL较常用在数据仓库技术中。其中,抽取可以理解为是把源数据的数据抽取到数据仓库中;转换是指开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总;加载是经转换和汇总的数据到目标数据仓库中。
随着大数据的广泛应用,数据成为组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
目前数据仓库中数据质量的检测是和数据仓库ETL过程中的抽取环节密切关联的,即在数据抽取的同时进行数据质量检查,也就是说,数据质量检测和数据抽取的脚本代码是揉和在一起的。因此,现有的质量检测方案与抽取环节耦合度太高,如此,将会导致存在下述问题。
1、数据质量校验的成败会很大程度地影响数据抽取的速度。如果数据质量校验失败,则需要重新进行质量检验,而质量校验与抽取两者是捆绑在一起的,这样,数据的抽取步骤也将需要重新执行,因此,数据质量校验的失败会导致数据的整体抽取速度低。
2、数据质量低。由于质量校验与抽取捆绑在一起,为了提高数据抽取的效率,相应的SQL语句中考虑的字段将会较少,这样,SQL语句中的约束条件就会很宽松,从而会导致基于此所抽取到的数据可能并不满足严格的技术和业务逻辑规则,进而降低所抽取数据的质量。
3、数据质量检测规则的扩展性差,由于质量校验与抽取两者是捆绑在一起的,当数据质量检测规则需要更新时,也需要同时更改抽取环节的相关脚本代码,这样,数据质量检测规则更新时相应的脚本代码的修订工作量会较大,从而不利于数据质量检测规则维护扩展。
由此可见,现有的数据质量检测方法存在影响数据抽取效率、降低数据质量以及难于维护数据质量检测规则等问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种数据质量检测方法和装置,可以提高数据抽取效率和数据质量,并且易于数据质量检测规则的扩展。
为了达到上述目的,本发明提出的技术方案为:
一种数据质量检测方法,包括:
a、从源库中抽取数据;
b、根据预设的质量规则,对所述抽取得到的数据进行质量检测;
c、将通过所述质量检测的数据,进行整合处理。
一种数据质量检测装置,包括:
第一抽取单元,用于从源库中抽取数据;
质检单元,用于根据预设的质量规则,对所述抽取得到的数据进行质量检测;
第二抽取单元,用于将通过所述质量检测的数据,进行整合处理。
综上所述,本发明提出的数据质量检测方法和装置,先单独进行数据抽取再对抽取结果进行质检,如此,质量检测对应的脚本代码将会独立于所述抽取的脚本代码,从而可以避免现有质量检测方案所存在的诸多问题,可以提高数据抽取效率和数据质量,并且易于数据质量检测规则的扩展。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:将抽取过程中的数据抽取和数据整合分离开,先单独进行数据抽取,在数据整合之前对数据抽取结果进行质检。这样,抽取的脚本代码可以独立于质量检测的脚本代码,就不会存在两者绑定在一起时存在的诸多问题,即质量检测的成败不会再影响数据抽取的整体进度,同时还可以提高质量检测的准确度、确保数据质量,数据质量检测规则的扩展也易于实现。
图1为本发明实施例的数据质量检测方法流程示意图,如图1所示,该实施例主要包括:
步骤101、从源库中抽取数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510272664.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置