[发明专利]一种基于Spark的智能数据转换方法有效
申请号: | 202110756908.5 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113641739B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 王仁俊;罗义斌;胡明慧;魏阳;李军;司震;宋炜伟 | 申请(专利权)人: | 南京联创信息科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215;G06F16/21;G06F16/27;G06F9/455;G06F11/30;G06F11/32;G06F11/34 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210036 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 智能 数据 转换 方法 | ||
1.一种基于Spark的智能数据转换方法,其特征是,
基于分布式计算框架Spark的统一数据转换系统,所述系统包括解析器、执行器、调度器;其中解析器将通过页面勾选的同步条件、计算条件以及告警条件;通过各个解析器解析成对应的Spark代码,选择Sqoop的执行方式,将对应生成Sqoop的shell脚本,执行器通过解析器生成的Spark的代码或Sqoop脚本存储在HDFS,当任务被触发执行后,通过执行器选择相应的执行引擎执行具体脚本或代码;调度器根据调度依赖图,一方面设置任务依赖,每一个任务可以设置依赖父任务如任务B和C,或设置触发性子任务如任务D和E,最终多个依赖关系形成用户所需整个任务依赖网;
另一方可以设置任务失败策略,其中策略可选择,超时重试/失败重试,其中在任务执行过程中由执行器记录任务的执行状态及执行情况如:消耗时间,使用资源等同时将执行检测策略,设置为超时重试即任务执行时间到达设置阈值,将触发任务重试,在重试之前首先强制删除上个未完成任务的文件;设置为失败重试会在结束任务时根据状态判断是否重跑;
最终将所需执行的任务根据集群现有资源情况,调度到资源充足的节点执行任务;
具体步骤:
1)数据源配置,提前对多数据源统一管理配置,通过页面化配置数据源,自动扫描库表元数据;构建好数据源后,用户在页面选择创建抽取任务;
2)执行器构建,抽取任务第一步选择数据源,然后根据数据源勾选抽取计算规则,其中包括选择抽取规则为单次/增量抽取/全量抽取;通过勾选是否需要并发执行,并勾选所需要并发的分割字段;当选择增量抽取时,需要选择增量依据字段;
设置字段检查规则;设置成功后,下一步设置输入到数据中心的存储介质;
从数据源到中间计算规则最后到输出端配置好后,最终将ETL任务添加到定时任务,定时规则可在页面勾选,后台将计算规则存储在数据库;通过页面勾选的同步条件后,后台通过解析器解析计算条件,以及告警条件,将计算及告警条件存储落地,待后续确定上线任务后,解析器将相应的任务解析成Spark或Sqoop代码,抽取任务会根据抽取条件做测试抽取,测试抽取中会限制并发度及抽取数据量,测试通过后,即能安排上线;计算任务会根据计算规则生成对应的Spark代码,通过执行器执行具体代码,执行测试代码会根据设置的并发度及限制计算量,抽取及计算任务都顺利测试执行通过后即可选择上线;
底层的数据抽取使用的是Spark和Sqoop;当任务触发时,会根据任务情况匹配不同的接口抽取数据,获取数据后会根据相应规则,拼接成Spark sql或则使用Spark core进行数据清洗;通过解析器生成的Spark的代码或Sqoop脚本存储在HDFS,当任务被触发执行后,通过执行器选择相应的执行引擎开始执行具体脚本或代码,在执行过程中执行器会将解析器的数据质量规则拉取到相应任务,在执行任务时通过规则监控字段情况进行实时告警;如性别字段设置为:‘只能有男女’,待抽取任务结束后执行器会统计相关数据做数据质量监控,其中抽取任务在抽取完成后会统计本次抽取数据条数、速率、抽取时间、执行时间等;将统计指标落库后开始执行质量监控逻辑,将解析器解析的页面监控规则于本次抽取的结果进行比较,如果达到设置阈值根据设置的告警通讯方式实行实时告警;
3)任务管理过程,针对每一个抽取任务提前配置抽取阈值,或者 配置某个抽取指标必须准确;当执行器执行任务结束后,任务管理模块会对整个过程的执行时间,执行情况包括不限于数据条数,执行状态,特定阈值的指标信息回写到平台业务库,做记录统计,具体执行过程是每个任务结束后,会将结果信息写到HDFS上的SUCEESS文件;每一个任务结束后都会触发一个统计进程来判断是否有SUCEESS文件,如果存在表示任务执行成功,否则失败,最终记录状态到执行状态表记录信息,如果存在SUCEESS文件,读取文件中记录的任务信息将任务信息如执行时间,使用资源情况写到业务库;
同时对重要执行任务可配置告警,任务失败以各种通信方式发送告警信息给相关开发人员,以做到快速响应校验数据,保证任务出错时最小化损失;
4)元数据维护过程:首先在数据源配置时,将数据来源存储在业务库,配置计算逻辑时,将参与计算的相关数据记录保存,执行器计算加工数据后将数据抽取目的地记录存储;从而做到数据从哪来,到哪去,参与了哪些计算的整个过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京联创信息科技有限公司,未经南京联创信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110756908.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置