[发明专利]一种构建数据仓库数据质量监测规则的方法和系统在审
申请号: | 202210749182.7 | 申请日: | 2022-06-29 |
公开(公告)号: | CN115292297A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 杨立才;邵宏力;邓知知;胡超;刘磊;李云 | 申请(专利权)人: | 江苏昆山农村商业银行股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F16/21;G06F16/22 |
代理公司: | 国浩律师(南京)事务所 32284 | 代理人: | 孟睿 |
地址: | 215334 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 数据仓库 数据 质量 监测 规则 方法 系统 | ||
1.一种构建数据仓库数据质量监测规则的方法,其特征在于,对于数据库中各表的字段,
确定具有非空特征的字段,基于非空特征字段形成非空的完整性约束规则;
确定为主键的字段,基于主键字段形成唯一性约束规则;
确定具有外键关系的字段,基于外键关系形成一致性约束规则;
确定为主数据的字段,基于主数据的格式形成有效性约束规则;
由规则引擎读取完整性约束规则、唯一性约束规则、一致性约束规则、有效性约束规则,生成相应的数据仓库数据质量监测规则语句。
2.如权利要求1所述的构建数据仓库数据质量监测规则的方法,其特征在于,
通过字段级知识图谱确定数据库中各表的字段是否具有非空特征,将具有非空特征的字段所属表名、字段名、字段对应的非空规则以表形式存储以形成非空的完整性约束规则表;
通过字段级知识图谱确定数据库中各表的字段是否为主键,将主键字段所属表名、字段名、字段对应的唯一约束规则以表形式存储以形成唯一性约束规则表;
通过字段级知识图谱确定数据库各表中具有外键关系的字段,将外键关系中的主键和主键字段所属表名、字段名、字段对应的外键约束规则以表形式存储以形成一致性约束规则表;
通过字段级知识图谱确定数据库中各表的字段是否为主数据字段,并将数据共享的字段分为同一组主数据字段;找出将同一组主数据字段内字段维值最小的字段,将该字段维值最小的字段所属表名、字段名、字段对应的数据格式以表形式存储以形成有效性约束规则表;
由规则引擎读取完整性约束规则表、唯一性约束规则表、一致性约束规则表、有效性约束规则表,生成相应的数据仓库数据质量监测规则语句。
3.如权利要求2所述的构建数据仓库数据质量监测规则的方法,其特征在于,所述字段级知识图谱是指将各表的字段、表间关系以可视化的图结构形式展示的知识图谱;所述字段级知识图谱包括节点和边,每一个节点代表一个字段,每一条边代表一种字段间关系;所述表间关系体现为来自不同表的字段之间的关系,至少包括外键关系、数据相等、数据去空相等。
4.如权利要求3所述的构建数据仓库数据质量监测规则的方法,其特征在于,通过字段级知识图谱确定数据库中各表的字段是否为主数据字段时,找出表间关系为外键关系、数据相等或数据去空相等的两个字段,且所述两个字段的原始数据来源于不同的业务系统时,将该两个字段作为主数据字段。
5.如权利要求2所述的构建数据仓库数据质量监测规则的方法,其特征在于,所述数据格式采用正则表达式。
6.如权利要求3所述的构建数据仓库数据质量监测规则的方法,其特征在于,获取外键关系的过程为:
获取数据库中各表所来自的业务系统、表名,以及各表中的字段名;
针对各表,根据表中字段的值,分析各字段的特征;以及针对各表,根据表名、字段名以及字段的值,计算获得表内各字段之间的表内函数依赖关系;
针对各表,根据表内函数依赖关系识别出各表的主键,并根据所述主键的特征在其他表中寻找并确定与之对应的外键,在主键和外键之间形成外键关系。
7.如权利要求6所述的构建数据仓库数据质量监测规则的方法,其特征在于,获取数据相等和数据去空相等关系的过程为:
通过表内函数依赖关系,确定外键所属的表A,找到该外键字段的闭包,将闭包内字段去重后形成一张以该外键的字段为主键的临时表B;
通过外键关系,将主键所在表C作为左表,以临时表B作为右表,进行内连接形成一张新的临时表D;
对临时表D中各字段在表A和表C的值进行对比,以形成如下表间关系:
数据相等,即表A和表C之间字段在临时表D中两列数据完全相等;
数据去空相等,即表A和表C之间字段在临时表D中两列数据去除空值后相等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏昆山农村商业银行股份有限公司,未经江苏昆山农村商业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210749182.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:净水龙头用转接头装配设备
- 下一篇:一种含硼钢连铸方坯裂纹的控制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置