[发明专利]一种检测数据质量的方法以及检测数据质量的装置在审
申请号: | 201811083363.0 | 申请日: | 2018-09-17 |
公开(公告)号: | CN109491990A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 高东升;付铨;梅纲 | 申请(专利权)人: | 武汉达梦数据库有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06F16/2458 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测数据 待检测数据 规则匹配 问题数据 质量检测 数据类型 正常数据 种检测 检测 准确度 配置规则 入库数据 实际需求 输出数据 目的端 数据源 匹配 传送 督导 筛选 关联 输出 | ||
本发明提供了一种检测数据质量的方法以及检测数据质量的装置,该检测数据质量的方法包括:获取待检测数据以及待检测数据的数据类型和/或属性;依据待检测数据的数据类型和/或属性,配置规则匹配组合,其中,规则匹配组合包括至少一个检测规则;依据规则匹配组合对待检测数据进行质量检测,以筛选出正常数据以及问题数据;将正常数据以及问题数据传送至目的端,并依据问题数据输出质量检测报告。本发明的检测数据质量的方法,由于规则匹配组合与待检测数据相关联,不仅可以提高检测效率,还可以提高检测的准确度,提高入库数据的质量。同时,可以依据实际需求输出数据质量检测报告,以督导数据源改善数据质量。
【技术领域】
本发明涉及数据检测领域,特别是涉及一种检测数据质量的方法以及检测数据质量的装置。
【背景技术】
一般在数据中心项目的建设中,数据来源千变万化,使用ETL(Extract-Transform-Load,简写ETL)工具软件进行数据抽取、清洗转换时,发现某些重要数据要么缺失、要么不符合规范。例如,公安行业监测网吧上网记录,可能出现身份证登记缺失或无效的身份证号码、上网时间非法或下网时间非法等问题,类似大批量问题数据迁移到公安行业数据中心库,必然导致数据可分析利用率不高。因此,抽取、清洗转换后的数据在入库之前,需要对数据进行相关的质量检测,入库正常数据,并提供问题数据及问题数据的分析结果,督促数据源改善数据质量。
但是数据中心的源数据存在差异,且数据具有多样性,不同的数据所适用的监视规则或检测规则也会相应的不同。目前,一般采用预设的多个不同的检测规则统一对不同的源数据进行检测,但是存在一些检测规则与源数据类型无关的情况,例如,源数据为身份证号,某一个检测规则是检测时间是否非法,源数据与检测时间是否非法的检测规则并无关联关系,在采用该检测规则对源数据进行检测时,相当于是无效的检测,影响检测效率。或者,预设的检测规则覆盖面不够广,无法对数据进行全面的检测,不仅影响入库数据的质量,同时,也会造成问题数据及问题数据的分析结果存在异常,无法正确督导数据源改善数据质量。
因此,目前对源数据进行检测时,无法依据待检测的源数据灵活应对变换监视规则或检测规则,以向数据源输出问题的数据分析跟踪调查,从而督促改善数据质量,不仅影响检测效率,还会影响入库数据的质量,同时,也会造成问题数据及问题数据的分析结果存在异常,无法正确督导数据源改善数据质量。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
【发明内容】
针对现有技术的以上缺陷或改进需求,本发明提供了一种检测数据质量的方法及检测数据质量的装置,其目的在于基于待检测数据的类型和/或属性,灵活配置包含至少一个检测规则的规则匹配组合,利用规则匹配组合对待检测数据进行质量检测,并根据实际需求输出数据质量检测报告;由此解决目前对数据进行检测时,无法依据待检测数据灵活应对变换监视规则或检测规则的问题。
本发明实施例采用如下技术方案:
第一方面,本发明提供一种检测数据质量的方法,所述检测数据质量的方法包括:
获取待检测数据以及所述待检测数据的数据类型和/或属性;
依据所述待检测数据的数据类型和/或属性,配置规则匹配组合,其中,所述规则匹配组合包括至少一个检测规则;
依据所述规则匹配组合对所述待检测数据进行质量检测,以筛选出正常数据以及问题数据;
将所述正常数据以及所述问题数据传送至目的端,并依据所述问题数据输出质量检测报告。
优选地,所述依据所述规则匹配组合对所述待检测数据进行质量检测,以筛选出正常数据以及问题数据包括:
解析所述待检测数据,以获取多个目标检测字段;
依据所述规则匹配组合,依次判断确定所述多个目标检测字段是否满足所述规则匹配组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉达梦数据库有限公司,未经武汉达梦数据库有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811083363.0/2.html,转载请声明来源钻瓜专利网。