[发明专利]一种海量数据质量检核方法及其系统有效
申请号: | 202110549386.1 | 申请日: | 2021-05-20 |
公开(公告)号: | CN112988736B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 宋成平 | 申请(专利权)人: | 睿至科技集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/27;G06F9/455 |
代理公司: | 北京卓特专利代理事务所(普通合伙) 11572 | 代理人: | 段旺 |
地址: | 100005 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 质量 检核 方法 及其 系统 | ||
本申请公开了一种海量数据质量检核方法及其系统,其中,海量数据质量检核系统包括:电力数据中台、容器云和服务器集群;服务器集群包括多个服务器;电力数据中台用于存储待检核的海量数据并允许服务器集群进行访问;容器云用于从服务器集群中选择执行服务器;服务器集群用于对基础信息进行独立部署,确定数据检核信息并上传;根据数据检核信息对海量数据进行访问,确定待检核的海量数据的数据切块和数据检核任务的并行数量;根据并行数量确定需要调度的执行服务器;由执行服务器对数据切块进行处理,生成检核结果;对检核结果进行存储。本申请具有支持调度无限制的数据质量检核任务的执行、支持海量数据的数据质量检核结果分析和检索的技术效果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种海量数据质量检核方法及其系统。
背景技术
数据质量是在一定业务场景下,以一定范围的业务和技术标准规范为依据,数据质量检核为手段的数据考核管理办法,是数据可用性和数据价值的基本保障和衡量手段。
国网电力数据每天增加60T,将这些海量的数据接入数据中台,在数据中台积累了超海量的数据,由于数据来源多样,格式无法统一,造成了严重的数据质量问题。为了向数据中台提供高质量可应用的数据服务和数据分析,需要对数据进行数据质量治理,通过数据质量检核工具检核出问题数据,进行专项的数据质量提升。
现在的数据质量检核都是通过定义检核方法实现,创建检核任务,根据检核方法的定义内容,所有任务调度都由调度中心统一调度,由数据质量检核中心统一执行检核任务,该方式便于管理和实现,但当数据量达到T级的时候,系统无法继续进行检核任务的执行,即无法处理海量数据的数据质量检核任务,也无法查看检核结果明细,无法对海量数据检核结果做实时的统计分析和检索。
此外,在电力数据中台中,海量数据对整体的数据质量检核工作形成了很大的挑战,海量数据的情况下检核执行时间都在30分钟以上,有的甚至4、5个小时,且当并行检核任务达到2000个以上,无法继续执行检核任务。针对检核结果明细存储到中台或mysql、Oracle、sqlserver等传统数据库上,海量结果集无法进行实时检核结果明细数据的查询和检索。由此可知,现有的实现方式很难支持针对海量数据的质量检核任务的执行,和数据检核结果明细的分析和检索。
发明内容
本申请的目的在于提供一种海量数据质量检核方法及其系统,具有支持调度无限制的数据质量检核任务的执行,以及支持海量数据的数据质量检核结果分析和检索的技术效果。
为达到上述目的,本申请提供一种海量数据质量检核系统,包括:电力数据中台、容器云和服务器集群;服务器集群包括多个服务器;电力数据中台:用于存储待检核的海量数据,并允许服务器集群对海量数据进行访问;容器云:用于从服务器集群中选择执行服务器;服务器集群:用于执行如下步骤:对基础信息进行独立部署,完成独立部署后,确定数据检核信息并上传,其中,基础信息包括:数据质量检核规则、检核任务定义和检核监控程序;根据数据检核信息对海量数据进行访问,确定待检核的海量数据的数据切块和数据检核任务的并行数量;根据并行数量对数据检核任务进行部署,并确定需要调度的执行服务器;由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理,生成检核结果;利用数据检核信息中的检核结果表对获得的检核结果进行存储。
如上的,其中,电力数据中台包括:数据质量检核库、数据质量检核结果库和计算单元;其中,数据质量检核库:用于存储待检核的海量数据,并允许服务器集群对海量数据进行访问;数据质量检核结果库:用于存放检核结果,并允许访问;计算单元:用于对待检核的海量数据的数据量进行预估计算,根据预估计算对数据量进行动态的数据切块,根据数据切块的数量确定数据检核任务的并行数量,并允许访问;用于对合并后的检核结果的数据量进行计算,并对合并后的检核结果进行分片获得多个数据分片,并允许对数据分片进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于睿至科技集团有限公司,未经睿至科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110549386.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置