[发明专利]一种基于ETL流程的数据质量管控方法和系统在审
申请号: | 201711021492.2 | 申请日: | 2017-10-26 |
公开(公告)号: | CN109947746A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 高宇;周章雄;陈少钦;刘永江 | 申请(专利权)人: | 亿阳信通股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 150090 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 告警 检查结果 预先设置 质量管控 元数据 订单查询 检查规则 节点设置 快速定位 流程展现 日志查询 数据仓库 数据调度 数据获得 问题节点 周期设置 单数据 申请 数据库 检查 采集 关联 | ||
本申请提供了一种基于ETL流程的数据质量管控方法和系统,其特征在于,所述方法包括:导入元数据,根据所述元数据中各个表的数据获得ETL流程;为每个检查节点设置相应的检查规则,并定义需要执行的SQL;根据所述SQL,按照预先设置的执行周期设置数据调度任务,对采集的数据进行检查,得出检查结果;将检查结果与预先设置的告警阈值进行比较,如果满足阈值范围,则生成告警详单,并将所述告警详单插入到数据库;将所述告警详单数据关联汇总到数据仓库层事实汇总数据;将所述检查结果通过告警订单查询、日志查询、流程展现和/或报表展现的方式呈现。通过本申请,可快速定位ETL流程问题节点,确保数据质量。
技术领域
本申请涉及数据分析技术领域,特别地,涉及一种基于ETL流程的数据质量管控方法和系统。
背景技术
数据仓库技术(Extract-Transform-Load,ETL)用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。
在ETL数据处理过程中,会经理很多环节,参见图1。每个环节由于过滤方式、清洗方式、原始数据的抽取规则是否符合规范要求、转换过程是否执行成功、加载过程类型是否正确等因素,造成数据记录丢失、数据不准确、转换过程失败、超时等情况。而在定位这些问题的环节时,由于环节较多、使用技术较多、造成问题的原因较多,导致维护人员定位问题无从下手,或是会发大量的时间来做数据核查工作,费力且不一定能准确定位问题。例如,从信令采集解析提供的外部数据表示(External Data Representation,XDR)数据看,存在一系列问题,如关键字段填充率低、解析机制不合理、业务识别率低、识别不准确等问题,严重影响了上层分析的准确性。
在ETL数据处理过程中出现的上述数据缺失、数据计算不准确、数据处理过程超时等属于数据质量问题。数据质量是数据分析的基础,数据质量的高低,直接影响上层应用分析结论的准确性,确保数据质量是ETL过程中端到端数据质量分析的基础。
传统ETL过程中数据质量问题常常通过人工做数据核查的方式来定位问题,常用的核查手段是人工查找日志,通过编写SQL或者SHELL脚本执行比对校验结果来定位,这种方式工作量大,对维护人员等操作者要求高。
而在信令数据ETL处理过程中,常用拨测的方法从宏观上验证统计指标,通过两边系统的比对来验证数据质量,这种方法首先需要构建对比方法,其次工作量大,并且不能定位到问题产生的环节。
还有通过抽取关键字段核查的方法。为了保证关键指标的准确,常常查关键字段是否满足规范要求,需要较多的技术基础作为支撑,特别是信令XDR数据,原始数据量大,传统的关系型数据库并不能很好的支持验证,需要专门的技术人员来做处理。
发明内容
本申请提供一种基于ETL流程的数据质量管控方法和系统,用于解决现有技术中存在的以下问题:
(1)人工核查过程麻烦,需要有经验的技术人员才能定位;
(2)效率不高,通常经过多个环节对比、查找日志才能够定位问题,大多是重复的工作;
(3)操作不方便,需要核查人员知道日志路径、查看方式,熟练使用不同类型数据库SQL;
(4)核查结果不直观,不能通过可视化页面展示结果,不能直接看到问题发生的环节。
本申请公开的一种基于ETL流程的数据质量管控方法,所述方法包括:
导入元数据,根据所述元数据中各个表的数据获得ETL流程;其中,所述ETL流程包括数据抽取、数据转换和数据加载三个环节,同时,ETL流程数据呈现包括指标结果和数据处理环境两个环节,所述ETL流程和ETL流程数据呈现的每个环节都包含至少一个检查节点;
为每个检查节点设置相应的检查规则,并定义需要执行的命令语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿阳信通股份有限公司,未经亿阳信通股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711021492.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库优化方法及装置
- 下一篇:基于孤立点检测的大数据异常值清理方法