[发明专利]基于数据血缘分析的数据治理方法及系统有效
申请号: | 202110187130.0 | 申请日: | 2021-02-18 |
公开(公告)号: | CN112800149B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 王泽宇;宋海涛;尹曦萌;于春蕾;张正奇 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F16/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 血缘 分析 治理 方法 系统 | ||
本发明公开了基于数据血缘分析的数据治理方法及系统,属于数据处理技术领域,本发明要解决的技术问题为在数据治理过程中,如何克服数据溯源难、验证难以及关联分析难,采用的技术方案为:该方法是通过分析数据血缘关系,构建数据家族关系网状图谱,对网状图谱中各节点数据相互印证扩充,从而帮助数据治理人员完成对数据进行溯源、验证、补充及规范,提高数据治理效能;具体如下:对大数据进行调度和储存;对数据进行血缘分析形成数据家族图谱;通过算法模型构建数据图谱。该系统包括大数据调度存储模块、数据血缘分析模块和算法模型模块。
技术领域
本发明涉及数据处理技术领域,具体地说是一种基于数据血缘分析的数据治理方法及系统。
背景技术
大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,经过再次被调用、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。
人类血缘关系是指由婚姻或生育而产生的人际关系,如父母与子女的关系、兄弟姐妹关系以及由此而派生的其他亲属关系。而在数据的产生、加工、流转及消亡过程中,数据之间自然会形成一种关系,借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。
数据血缘又具有以下特性:
①归属性:数据是被特定组织或个人拥有所有权的,拥有数据的组织或个人具备数据的使用权;
②多源性:同一个数据可以有多个来源(即多个父亲),数据是由多个数据加工生成或者由多种加工方式或加工步骤生成;
③可追溯性:数据的血缘关系体现了数据的全生命周期,从数据生成到废弃的整个过程,均可追溯;
④层次性:数据的血缘关系是有层次的;对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
在纷乱的数据中,如何利用数据血缘以上4个特点来理顺数据血缘关系,帮助数据治理人员更好完成数据溯源、验证、补充、规范等数据治理工作是一个难题。
为直观描述数据血缘定义,举个生活中的例子,例如在购物网站中,客户在购买物品后,数据就被存到后台数据库表A中。当需要统计某个月卖的最火的是哪些物品时,就需要对数据库中的原始数据进行加工汇总,形成一张中间表B来存储阶段处理的数据,若逻辑较复杂时,还要继续加工继续形成中间表。直到最后处理成前台展现使用的最终表,假设为C表。那么A表是C表数据最初的来源,是C表数据的祖先。从A表数据到B表数据再到C表数据,这条链路就是C表的数据血缘。
在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致出现数据质量的问题,比如数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到目标表后,它的数据质量也是不高的,也有可能在某个环节的数据处理中,对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。
故在数据治理过程中,如何克服数据溯源难、验证难以及关联分析难是目前亟待解决的问题。
发明内容
本发明的技术任务是提供一种基于数据血缘分析的数据治理方法及系统,来解决在数据治理过程中,如何克服数据溯源难、验证难以及关联分析难的问题。
本发明的技术任务是按以下方式实现的,一种基于数据血缘分析的数据治理方法,该方法是通过分析数据血缘关系,构建数据家族关系网状图谱,对网状图谱中各节点数据相互印证扩充,从而帮助数据治理人员完成对数据进行溯源、验证、补充及规范,提高数据治理效能;具体如下:
对大数据进行调度和储存;
对数据进行血缘分析形成数据家族图谱;
通过算法模型构建数据图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187130.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置