[发明专利]一种基于数据治理及血缘关系设计的数据仓库系统在审
| 申请号: | 201910324461.7 | 申请日: | 2019-04-22 |
| 公开(公告)号: | CN110232098A | 公开(公告)日: | 2019-09-13 |
| 发明(设计)人: | 陈宇超;高至楠;王东洋;刘洋 | 申请(专利权)人: | 汇通达网络股份有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/25;G06F16/2458 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 吴庭祥 |
| 地址: | 210008 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 血缘关系 管理模块 元数据管理模块 数据仓库系统 数据质量管理 数据治理 业务一致性 调度管理 定时巡检 管理平台 企业数据 生命周期 数据服务 协同作业 作业调度 可视化 主题域 库表 链路 画像 标签 查询 反馈 展示 | ||
1.一种基于数据治理及血缘关系设计的数据仓库系统,其特征在于,包括数仓管理模块、血缘关系管理模块、元数据管理模块、数据质量管理模块和作业调度管理平台;
其中,所述数仓管理模块通过ETL工具采集业务系统数据,并根据传统BI分层,借助报表工具为企业提供数据服务和决策支持;
所述血缘关系管理模块将企业数据资产到数仓管理模块的血缘链路关系可视化,并对数仓管理模块的血缘关系进行管理;
所述元数据管理模块定时收集业务系统和数仓管理模块的元数据信息,以模块划分,业务系统包括营销规划、销售平台、销售进程管理、客户服务管理、客户关系管理和风险防范;数据仓库本身并不生产任何数据,数据来源于外部,并且开放给外部应用,分为三层:业务系统、数仓管理模块、数据应用;
元数据管理模块通过自动或者手动两种采集方式定时收集业务系统和数仓管理模块的元数据信息,统一存储到MetaCube知识库并集中管理,为上层元数据应用提供数据服务;
所述数据质量管理模块协同作业调度管理平台,通过配置作业、作业流的方式,按照既定的数据质量管理规则,定时核对业务系统与数仓管理模块的数据,确保数据的准确性。
2.根据权利要求1所述的系统,其特征在于,所述数仓管理模块包括业务系统数据沉淀层、主题域分层和标签画像层;
所述业务系统数据沉淀层采用全量数据采集、增量数据采集及特殊业务场景定制化数据采集方式采集数据;
所述主题域分层用于根据公司业务进行归类;
所述标签画像层包括高度主题汇总层、数据服务层和敏捷BI数据集市层。
3.根据权利要求2所述的系统,其特征在于,针对数据量小于百万级的业务系统数据采用全量数据采集方式;针对数据量超过百万级且有更新时间戳的业务系统数据采用增量数据采集方式;针对数据量超百万级但无更新时间戳的业务系统数据采用倒退历史时间增量数据采集方式。
4.根据权利要求3所述的系统,其特征在于,所述血缘关系管理模块用于数据源采集、ETL作业采集、存储过程采集和报表血缘关系采集;
所述数据源采集包括数据源配置和采集任务调度配置;
所述ETL作业采集包括采集ETL数据源配置和执行采集作业;
所述存储过程采集包括采集数据源配置和执行采集作业;
所述报表血缘关系采集包括采集报表数据源配置和执行采集作业。
5.根据权利要求4所述的系统,其特征在于,所述元数据管理模块用于生成元数据采集报告和元数据版本报告,并管理元数据生命周期。
6.根据权利要求5所述的系统,其特征在于,所述数据质量管理模块按照制定的一致性数据对比规则,对比统计周期内的业务系统和数据仓库管理模块的数据一致性,数据一致性包括数据量级、指标数据一致性,质量管理的统计时间频率能够配置到分钟级、小时级、天级。
7.根据权利要求6所述的系统,其特征在于,所述一致性数据对比规则如下:
记录数检核:记录数检核是指各个数据区域相关数据之间的数据总数检核或者数据表中每日数据量的变动检核;
业务约束检核:具体业务约束检核要在项目实施过程中与业务人员共同确定,业务人员提出检核规则,从业务的角度考虑数据的合理性;
空值检核:空值检核通过检核一个数据集的特定属性是否为空来衡量数据准确性;
非法值检核:非法值检核通过检查数据的取值是否在一个范围内来衡量其准确性,
码值检核:码值检核通过检查字段值在码表中是否真实存在来衡量数据准确性;
主键重复检核:主键重复检核通过对一张表中的一个或者两个以上联合字段进行检查,通过判断其是否唯一存在来衡量数据准确性。
8.根据权利要求7所述的系统,其特征在于,所述作业调度管理模块包括作业、作业流配置、计划配置、作业重刷机制配置和作业监控管理;作业能够并行调度,也能够串行调度,串行需要配置成作业流,作业流代表了作业执行调度的先后依赖关系,作业流允许失败重刷机制,能够从断点或者重头开始执行作业流调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汇通达网络股份有限公司,未经汇通达网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910324461.7/1.html,转载请声明来源钻瓜专利网。





