[发明专利]基于数据血缘分析的数据治理方法及系统有效
申请号: | 202110187130.0 | 申请日: | 2021-02-18 |
公开(公告)号: | CN112800149B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 王泽宇;宋海涛;尹曦萌;于春蕾;张正奇 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F16/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 血缘 分析 治理 方法 系统 | ||
1.一种基于数据血缘分析的数据治理方法,其特征在于,该方法是通过分析数据血缘关系,构建数据家族关系网状图谱,对网状图谱中各节点数据相互印证扩充,从而帮助数据治理人员完成对数据进行溯源、验证、补充及规范,提高数据治理效能;具体如下:
对大数据进行调度和储存;具体如下:
对相关性数据资源通过NIFI的数据调度程序调度到HBASE的数据库中;
在调度过程中,对字段名称进行标准化处理,对重点字段进行数据清洗,方便血缘分析;
对数据进行血缘分析形成数据家族图谱;具体如下:
通过数据特征找寻最基础数据资源,作为信息主节点,通过信息主节点找寻其数据流出节点作为子节点;其中,在找寻父子节点时,在信息主节点中标识重要字段信息;
找寻子节点的数据流入节点及数据流出节点,相互关联后形成家族数据网格;
以圆圈标识基础节点、流入节点及流出节点,以带箭头的线段标识数据流入和数据流出,以基础节点为主节点开始进行数据血缘分析;
在数据血缘分析过程中,在圆圈中重点标识表名称及表重点字段,在连接线上标识清楚表之间的关联字段,依次连接各个数据流入节点及流出节点,形成数据家族图谱;
通过算法模型构建数据图谱;具体如下:
将数据表抽象为对象,将数据表中字段抽象为对象属性,将数据表与表关系抽象为对象关系,以对象、属性及关系为要素建立统一的本体数据模型,建立从物理表到本体数据模型映射;
通过算法模型分析数据家族数据表关系形成数据图谱,提取价值数据信息;
数据家族图谱包括如下要素:
①主节点:主节点只有一个,位于整个图谱的中间,是可视化图形的核心节点;图谱展示的血缘关系就是该主节点的血缘关系;
②数据流入节点:数据流入节点有一个或多个,数据流入节点是主节点的父节点,表示数据来源;
③数据流出节点:数据流出节点有一个或多个,数据流出节点是主节点的子节点,表示数据的去向;数据流出节点还包括终端节点,终端节点表示数据不再往下进行流转;
④数据流转线路:是指数据的流转路径,从左到右流转;数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散;
血缘分析方法如下:
①静态分析法:基于编译原理,通过对源代码进行扫描和语法分析以及对程序逻辑涉及的路径进行静态分析和罗列,实现对数据流转的客观反映;
②接触感染式分析法:通过对数据传输和映射相关的程序命令进行筛选,获取关键信息,进行深度分析;
③逻辑时序性分析法:根据程序处理流程,将与数据库、文件及通信接口数据字段无直接关系的传递和映射的间接过程和程序中间变量,转换为数据库、文件及通信接口数据字段之间的直接传递和映射。
2.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1所述的基于数据血缘分析的数据治理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187130.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置