[发明专利]一种关系完整性的数据质量检测系统有效
申请号: | 201611254042.3 | 申请日: | 2016-12-30 |
公开(公告)号: | CN108268462B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 李青海;侯大勇;简宋全;邹立斌 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 完整性 数据 质量 检测 系统 | ||
本发明提供一种关系完整性的数据质量检测系统,其包括:元数据处理模块,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,并通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板;模板处理模块,用于在资源库中存储和提取所述元数据处理模块得到的关系完整性规则模板;问题处理模块,用于发现、展示和处理关系完整性数据问题。本发明提供的一种关系完整性的数据质量检测系统,可以解决复杂的关系完整性数据问题的检测,并通过用户辅助和一定自动化生成质量检测模板,为后续增量数据的检测提供便利,相比人工检测节省了大量时间和精力。
技术领域
本发明涉及ETL过程中的数据质量监控领域,特别是一种关系完整性的数据质量检测系统。
背景技术
信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信任危机。针对这些脏数据,许多数据质量检测和清洗方案应运而生。而关系完整性在其中则是比较复杂的一种数据质量问题。关系完整性主要有四条规则:1.唯一性规则(identityrules);2.参照性规则(reference rules);3.参与度规则(cardinal rules);4.派生规则(inheritance rules)这四种规则的多种情况导致其在数据表中呈现出现不同的逻辑结构,如参与度规则中实体间1对1和1对N关系在数据库中只需两张实体表,而多对多关系则需要再多一张关系表来记录两个实体间的多对多关系。另外,尽管在数据库中可以设置外键规则,但许多公司可能并不会进行设置,这是因为比起防止输入错误的外键参照数据,公司更在意这些仅出现参照错误的数据记录的价值,因此更倾向于在输入之后进行修改。这些复杂情形使数据库逐渐累积了大量错误数据,并为数据质量的监控带来了重重挑战。
目前比较有代表性的数据质量评价工具对于简单的数据质量问题如属性域约束和关系完整性中主外键约束有较好的检测效果,但对于复杂的逻辑结构,如参与度规则涉及的参与度问题和弱实体问题、以及派生规则中包含的子类型问题考虑的比较少。因此有必要设计一种比较易用和全面的系统对数据源中的数据和新增的数据进行关系完整性检查。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种关系完整性的数据质量检测系统,其包括:元数据处理模块,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,并通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板;模板处理模块,用于在资源库中存储和提取所述元数据处理模块得到的关系完整性规则模板;问题处理模块,用于发现、展示和处理关系完整性数据问题。
较佳的,所述元数据处理模块包括:数据模型提取单元,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,所述逻辑数据结构包括表结构和在数据库中预定义的主外键约束;数据关系发现单元,用于通过用户交互和自动检测发现潜在的数据关系,并生成关系完整性规则模板。
较佳的,所述元数据处理模块还包括如果所述数据模型提取单元提取出的数据模型已将主外键约束定义完整,则不需数据质量分析员指定各表的主外键,否则需对主外键进行指定,根据定义好的主外键自动发现实体之间的关系参与度和子类型,并由分析员在此基础上进行修改或调整,得到关系完整性规则模板,在自动发现过程中,输出每个外键字段的每个不同值对应的记录编号的计数,根据记录的最小和最大计数确定关系参与度,并扫描具有相同主键的数据表,确定潜在的父类型和子类型关系。
较佳的,所述模板处理模块包括:模板存储单元,用于将获取的关系完整性规则模板存入资源库,待后续有新增数据进入时使用;模板提取单元,用于在需要时从资源库中提取关系完整性模板进行关系完整性检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611254042.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置