[发明专利]一种数据血缘分析方法和装置在审

专利信息
申请号: 202310163717.7 申请日: 2023-02-24
公开(公告)号: CN116010428A 公开(公告)日: 2023-04-25
发明(设计)人: 王厚平;王乐珩;张金银 申请(专利权)人: 杭州比智科技有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/28;G06F16/2458;G06F16/242;G06F9/54
代理公司: 北京云科知识产权代理事务所(特殊普通合伙) 11483 代理人: 王素贞
地址: 311121 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 血缘 分析 方法 装置
【说明书】:

发明公开了一种数据血缘分析方法和装置,所述方法通过大数据组件的Hook机制分析获得血缘数据,通过消息中间件将血缘数据发送至存储系统,存储系统中构造数据模型用于血缘数据的存储,所述方法包括以下步骤:步骤10,基于嵌入代码插件分析采集数据集成的血缘数据,并发送至消息中间件;步骤20,基于Hive Hook分析采集Hive数据仓库的血缘数据,并发送至消息中间件;步骤30,基于嵌入代码插件分析采集API数据服务的血缘数据,并发送至消息中间件;步骤40,消息中间件接收指定Topic消息,并缓存起来;步骤50,根据类型模型,订阅消息中间件中的消息,存储后提供分析查询。本发明能够针对大数据平台数据血缘,能够全链路、准确、实时的采集和分析。

技术领域

本发明涉及计算机、网络通信技术及大数据处理领域,具体涉一种数据血缘分析方法和装置。

背景技术

随着以Hadoop为代表的大数据技术成熟、完善,大数据平台逐步被大量企业、个人、科研单位所使用。它提供了基于廉价微型计算机处理海量数据的能力,通过大量的DAG分布式任务来协同加工数据,然而,大量任务和复杂SQL会造成数据血缘难以被观察,很难知道修改了一张表的数据会对哪些表的数据造成影响,这张表的数据又是被哪些表加工出来的。现有的技术方案基本上都是:大数据开发手动维护一张Excel记录加工链路;或者是通过对SQL进行正则表达式、字符串分割获得相关表的信息,这种方式得到的血缘不是十分准确,并且不能实时获得。

但这类方式仍有不足:前一种方式,这种方式依赖的大量的人力,成本非常高,而且随着时间推移会逐渐难以维护。后一种方式,因为SQL可以构造的十分复杂,针对复杂SQL难以保证正确性,从而得到的血缘也十分不准确,另一方面,因为通过正则表达式、字符串分割的方式难以感知执行过程,所以很难及时获得血缘信息。

发明内容

针对现有技术存在的问题,本发明的目的在于提供一种数据血缘分析方法和装置,该方案能够针对大数据平台数据血缘,能够全链路、准确、实时的采集和分析。

为实现上述目的,本发明提供一种数据血缘分析方法,所述方法通过大数据组件的Hook机制分析获得血缘数据,通过消息中间件将血缘数据发送至存储系统,存储系统中构造数据模型用于血缘数据的存储,所述方法包括以下步骤:

步骤10,基于嵌入代码插件分析采集数据集成的血缘数据,并发送至消息中间件;

步骤20,基于Hive Hook分析采集Hive数据仓库的血缘数据,并发送至消息中间件;

步骤30,基于嵌入代码插件分析采集API数据服务的血缘数据,并发送至消息中间件;

步骤40,消息中间件接收指定Topic(命名:hive_hook_topic)消息,并缓存起来,等待消费者消费;

步骤50,根据类型模型,订阅消息中间件中的消息,并存储起来提供分析查询。

进一步,步骤10中,数据集成系统中Hook可以解析数据集成系统血缘,并将血缘数据推送至存储中,步骤10中数据集成的过程如下:

步骤101,根据数据读取模块抽取数据;

步骤102,将job信息封装为任务节点信息;

步骤103,将数据构造完成后通过消息中间件发送至存储系统;

步骤104,根据输出写入模块写入数据。

进一步,步骤20中Hive数据仓库hook过程,具体包括以下步骤:

步骤201,设置Hive变量,用于传递Hive任务相关的平台变量;

步骤202,HQL被解析为AST抽象语法树;

步骤203,读取Hive变量,将任务开始时平台变量传递至Hook插件;

步骤204,读取LineageInfo信息,包括输入表集合 和输出表集合;

步骤205,中可以获得输入表的集合,通过遍历ReadEntity得到输入表的名称;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州比智科技有限公司,未经杭州比智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310163717.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top