[发明专利]一种数据血缘分析方法和装置在审
| 申请号: | 202310163717.7 | 申请日: | 2023-02-24 |
| 公开(公告)号: | CN116010428A | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 王厚平;王乐珩;张金银 | 申请(专利权)人: | 杭州比智科技有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F16/2458;G06F16/242;G06F9/54 |
| 代理公司: | 北京云科知识产权代理事务所(特殊普通合伙) 11483 | 代理人: | 王素贞 |
| 地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 血缘 分析 方法 装置 | ||
本发明公开了一种数据血缘分析方法和装置,所述方法通过大数据组件的Hook机制分析获得血缘数据,通过消息中间件将血缘数据发送至存储系统,存储系统中构造数据模型用于血缘数据的存储,所述方法包括以下步骤:步骤10,基于嵌入代码插件分析采集数据集成的血缘数据,并发送至消息中间件;步骤20,基于Hive Hook分析采集Hive数据仓库的血缘数据,并发送至消息中间件;步骤30,基于嵌入代码插件分析采集API数据服务的血缘数据,并发送至消息中间件;步骤40,消息中间件接收指定Topic消息,并缓存起来;步骤50,根据类型模型,订阅消息中间件中的消息,存储后提供分析查询。本发明能够针对大数据平台数据血缘,能够全链路、准确、实时的采集和分析。
技术领域
本发明涉及计算机、网络通信技术及大数据处理领域,具体涉一种数据血缘分析方法和装置。
背景技术
随着以Hadoop为代表的大数据技术成熟、完善,大数据平台逐步被大量企业、个人、科研单位所使用。它提供了基于廉价微型计算机处理海量数据的能力,通过大量的DAG分布式任务来协同加工数据,然而,大量任务和复杂SQL会造成数据血缘难以被观察,很难知道修改了一张表的数据会对哪些表的数据造成影响,这张表的数据又是被哪些表加工出来的。现有的技术方案基本上都是:大数据开发手动维护一张Excel记录加工链路;或者是通过对SQL进行正则表达式、字符串分割获得相关表的信息,这种方式得到的血缘不是十分准确,并且不能实时获得。
但这类方式仍有不足:前一种方式,这种方式依赖的大量的人力,成本非常高,而且随着时间推移会逐渐难以维护。后一种方式,因为SQL可以构造的十分复杂,针对复杂SQL难以保证正确性,从而得到的血缘也十分不准确,另一方面,因为通过正则表达式、字符串分割的方式难以感知执行过程,所以很难及时获得血缘信息。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种数据血缘分析方法和装置,该方案能够针对大数据平台数据血缘,能够全链路、准确、实时的采集和分析。
为实现上述目的,本发明提供一种数据血缘分析方法,所述方法通过大数据组件的Hook机制分析获得血缘数据,通过消息中间件将血缘数据发送至存储系统,存储系统中构造数据模型用于血缘数据的存储,所述方法包括以下步骤:
步骤10,基于嵌入代码插件分析采集数据集成的血缘数据,并发送至消息中间件;
步骤20,基于Hive Hook分析采集Hive数据仓库的血缘数据,并发送至消息中间件;
步骤30,基于嵌入代码插件分析采集API数据服务的血缘数据,并发送至消息中间件;
步骤40,消息中间件接收指定Topic(命名:hive_hook_topic)消息,并缓存起来,等待消费者消费;
步骤50,根据类型模型,订阅消息中间件中的消息,并存储起来提供分析查询。
进一步,步骤10中,数据集成系统中Hook可以解析数据集成系统血缘,并将血缘数据推送至存储中,步骤10中数据集成的过程如下:
步骤101,根据数据读取模块抽取数据;
步骤102,将job信息封装为任务节点信息;
步骤103,将数据构造完成后通过消息中间件发送至存储系统;
步骤104,根据输出写入模块写入数据。
进一步,步骤20中Hive数据仓库hook过程,具体包括以下步骤:
步骤201,设置Hive变量,用于传递Hive任务相关的平台变量;
步骤202,HQL被解析为AST抽象语法树;
步骤203,读取Hive变量,将任务开始时平台变量传递至Hook插件;
步骤204,读取LineageInfo信息,包括输入表集合 和输出表集合;
步骤205,中可以获得输入表的集合,通过遍历ReadEntity得到输入表的名称;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州比智科技有限公司,未经杭州比智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310163717.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





