[发明专利]一种基于区块级数据汇集的数据质量管控方法及系统在审
申请号: | 202110853677.X | 申请日: | 2021-07-28 |
公开(公告)号: | CN113608983A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 易世勇;史子超;邢宏浩 | 申请(专利权)人: | 中建材信息技术股份有限公司;中建材信云智联科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F16/215;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100070 北京市丰台区南四环西路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区块 级数 汇集 数据 质量 方法 系统 | ||
1.一种基于区块级数据汇集的数据质量管控方法,其特征在于:包括如下步骤:
S1、以区块链及共享分发网络为基础,搭建数据模型,在各区块节点搭建分布式数据库,并连接内外部各业务系统,采集获取对应各节点近端处服务器端的数据并进行处理;
S2、分别在各区块节点处,定义以数据为基础的业务需求,将业务需求转化为对数据的需求,并编制对应的数据流图;
S3、以数据流图为基础,在数据流中评估数据的质量及数据对应的业务影响,通过深度分析来定位数据质量中存在的问题;
S4、根据质量问题,制定数据质量整改方案,实施方案,控制数据的质量并进行效果评估;
S5、定时统计数据管控的全流程,生成对应的评估报告,并及时进行上报反馈。
2.根据权利要求1所述的基于区块级数据汇集的数据质量管控方法,其特征在于:所述S3中,定位数据质量中存在的问题的方法包括如下步骤:
S3.1、导入元数据,获取数据流图,接入数据库,确认数据流;
S3.2、在数据模型的各流程中设置若干检查节点,从完整性、规范性、一致性、准确性、唯一性、关联性六个方面评估数据的质量;
S3.3、根据数据的质量,分别评估数据质量对相应的业务的影响;
S3.4、综合分析,确认业务数据中存在的质量问题。
3.根据权利要求1所述的基于区块级数据汇集的数据质量管控方法,其特征在于:所述S4中,实施整改方案控制数据质量的方法包括如下步骤:
S4.1、按照符合业务需求的标准,预先制定与业务对应的数据的标准格式;
S4.2、根据业务对应的数据中存在的质量问题,结合标准数据,制定相应的数据质量整改方案;
S4.3、实施数据质量整改方案,对存在质量问题的数据进行整改,评估整改后的数据的质量,从而实现控制数据质量的目的;
S4.4、依次重复上述流程,完成纠正现有数据问题的流程;
S4.5、对现存的数据问题及整改纠正过程进行分析学习,从而实现对未来可能存在的数据质量风险进行预测,并依据预设的标准数据来管控新增数据的质量,以达到规避未来数据风险的目的。
4.根据权利要求3所述的基于区块级数据汇集的数据质量管控方法,其特征在于:所述S4.3中,对存在质量问题的数据进行整改的方法包括如下步骤:
S4.3.1、针对存在不完整要素的数据,先描述缺失的数据要素、要素属性及要素关系,再通过区块级数据汇集的各区块节点,获取各节点处与该数据相关的数据,通过对比分析,以补足缺失的数据要素;
S4.3.2、针对存在不规范问题的数据,按照预设的标准数据,将不规范的数据转换为规范数据;
S4.3.3、针对原始数据在文件接口和入库的数据记录条数非一致的数据,则从区块各节点处获取相关数据,通过对比以发现缺失或重复的数据,补足缺失数据、删除重复数据;针对同一指标在不同数据中未保持一致的问题,则按照预设标准数据将各数据中的指标整改为一致;
S4.3.4、针对指标算法、数据处理过程存在不准确的数据,则通过元数据管理中定义的算法、数据处理顺序,结合人工检查,对数据进行准确性调整;
S4.3.5、针对存在不唯一的数据,则对存在重复的数据进行对比分析,结合该数据对业务的影响程度,保留影响较优的数据,删除影响较劣的重复数据;
S4.3.6、针对存在关联缺陷的数据,先查找出独立无关联的数据,在其他区块节点分布式数据库中,匹配与该数据存在关联的数据,挖掘并加固该数据与其他数据之间的关联性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中建材信息技术股份有限公司;中建材信云智联科技有限公司,未经中建材信息技术股份有限公司;中建材信云智联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853677.X/1.html,转载请声明来源钻瓜专利网。