[发明专利]一种基于Spark的智能数据转换方法有效

专利信息
申请号: 202110756908.5 申请日: 2021-07-05
公开(公告)号: CN113641739B 公开(公告)日: 2022-09-06
发明(设计)人: 王仁俊;罗义斌;胡明慧;魏阳;李军;司震;宋炜伟 申请(专利权)人: 南京联创信息科技有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/215;G06F16/21;G06F16/27;G06F9/455;G06F11/30;G06F11/32;G06F11/34
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210036 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 智能 数据 转换 方法
【权利要求书】:

1.一种基于Spark的智能数据转换方法,其特征是,

基于分布式计算框架Spark的统一数据转换系统,所述系统包括解析器、执行器、调度器;其中解析器将通过页面勾选的同步条件、计算条件以及告警条件;通过各个解析器解析成对应的Spark代码,选择Sqoop的执行方式,将对应生成Sqoop的shell脚本,执行器通过解析器生成的Spark的代码或Sqoop脚本存储在HDFS,当任务被触发执行后,通过执行器选择相应的执行引擎执行具体脚本或代码;调度器根据调度依赖图,一方面设置任务依赖,每一个任务可以设置依赖父任务如任务B和C,或设置触发性子任务如任务D和E,最终多个依赖关系形成用户所需整个任务依赖网;

另一方可以设置任务失败策略,其中策略可选择,超时重试/失败重试,其中在任务执行过程中由执行器记录任务的执行状态及执行情况如:消耗时间,使用资源等同时将执行检测策略,设置为超时重试即任务执行时间到达设置阈值,将触发任务重试,在重试之前首先强制删除上个未完成任务的文件;设置为失败重试会在结束任务时根据状态判断是否重跑;

最终将所需执行的任务根据集群现有资源情况,调度到资源充足的节点执行任务;

具体步骤:

1)数据源配置,提前对多数据源统一管理配置,通过页面化配置数据源,自动扫描库表元数据;构建好数据源后,用户在页面选择创建抽取任务;

2)执行器构建,抽取任务第一步选择数据源,然后根据数据源勾选抽取计算规则,其中包括选择抽取规则为单次/增量抽取/全量抽取;通过勾选是否需要并发执行,并勾选所需要并发的分割字段;当选择增量抽取时,需要选择增量依据字段;

设置字段检查规则;设置成功后,下一步设置输入到数据中心的存储介质;

从数据源到中间计算规则最后到输出端配置好后,最终将ETL任务添加到定时任务,定时规则可在页面勾选,后台将计算规则存储在数据库;通过页面勾选的同步条件后,后台通过解析器解析计算条件,以及告警条件,将计算及告警条件存储落地,待后续确定上线任务后,解析器将相应的任务解析成Spark或Sqoop代码,抽取任务会根据抽取条件做测试抽取,测试抽取中会限制并发度及抽取数据量,测试通过后,即能安排上线;计算任务会根据计算规则生成对应的Spark代码,通过执行器执行具体代码,执行测试代码会根据设置的并发度及限制计算量,抽取及计算任务都顺利测试执行通过后即可选择上线;

底层的数据抽取使用的是Spark和Sqoop;当任务触发时,会根据任务情况匹配不同的接口抽取数据,获取数据后会根据相应规则,拼接成Spark sql或则使用Spark core进行数据清洗;通过解析器生成的Spark的代码或Sqoop脚本存储在HDFS,当任务被触发执行后,通过执行器选择相应的执行引擎开始执行具体脚本或代码,在执行过程中执行器会将解析器的数据质量规则拉取到相应任务,在执行任务时通过规则监控字段情况进行实时告警;如性别字段设置为:‘只能有男女’,待抽取任务结束后执行器会统计相关数据做数据质量监控,其中抽取任务在抽取完成后会统计本次抽取数据条数、速率、抽取时间、执行时间等;将统计指标落库后开始执行质量监控逻辑,将解析器解析的页面监控规则于本次抽取的结果进行比较,如果达到设置阈值根据设置的告警通讯方式实行实时告警;

3)任务管理过程,针对每一个抽取任务提前配置抽取阈值,或者 配置某个抽取指标必须准确;当执行器执行任务结束后,任务管理模块会对整个过程的执行时间,执行情况包括不限于数据条数,执行状态,特定阈值的指标信息回写到平台业务库,做记录统计,具体执行过程是每个任务结束后,会将结果信息写到HDFS上的SUCEESS文件;每一个任务结束后都会触发一个统计进程来判断是否有SUCEESS文件,如果存在表示任务执行成功,否则失败,最终记录状态到执行状态表记录信息,如果存在SUCEESS文件,读取文件中记录的任务信息将任务信息如执行时间,使用资源情况写到业务库;

同时对重要执行任务可配置告警,任务失败以各种通信方式发送告警信息给相关开发人员,以做到快速响应校验数据,保证任务出错时最小化损失;

4)元数据维护过程:首先在数据源配置时,将数据来源存储在业务库,配置计算逻辑时,将参与计算的相关数据记录保存,执行器计算加工数据后将数据抽取目的地记录存储;从而做到数据从哪来,到哪去,参与了哪些计算的整个过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京联创信息科技有限公司,未经南京联创信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110756908.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top