[发明专利]一种自定义库开发的大数据处理方法及系统在审
申请号: | 202010407340.1 | 申请日: | 2020-05-14 |
公开(公告)号: | CN111625218A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 胡鹏;傅苗;匡岳锋;贺群雄;曹林 | 申请(专利权)人: | 中电工业互联网有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20;G06F8/71 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410000 湖南省长沙市长沙高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自定义 开发 数据处理 方法 系统 | ||
本发明公开了一种自定义库开发的大数据处理方法及系统,该方法包括:搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,定义自定义库开发的接口;进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。
技术领域
本发明涉及数据处理技术领域,具体是一种自定义库开发的大数据处理方法及系统。
背景技术
移动互联网、社交网络和电子商务极大的扩展了互联网应用的疆界和领域,随着互联网应用的高速发展以及业务持续增长和延伸,我们可收集获取的数据规模在不断增长,这些数据具有数据总量大,数据结构多样化,数据增长率高等特点,是典型的大数据。另一方面,用户在使用这些互联网应用时会持续不断地向服务器请求服务,过程中会产生一系列实时的流式数据。如何高效的处理历史存量大数据和实时增量流式数据,成为现阶段大数据处理领域新的研究方向。
现有技术在处理存量或增量数据时,采用并行云计算开发的ETL工具、基于MapReduce开发的流式数据处理框架、通过实现开源计算框架底层计算原理开发的大数据处理系统等,这些都会带来开发难度大,工作量大,技术门槛高等一系列问题。同时基于MapReduce技术框架开发的数据处理系统存在性能不高、处理效率低等问题。
而且,现有技术中对于大数据环境中两类数据:存量数据和增量数据是单独一套系统来处理,没有进行整合,导致相同数据处理业务逻辑需要针对两类数据场景需要进行重复开发;不支持动态配置数据处理逻辑,存在扩展难,复用率低等问题。
发明内容
针对上述现有技术中的一项或多项问题,本发明提供一种自定义库开发的大数据处理方法及系统,支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。
为实现上述目的,本发明提供一种自定义库开发的大数据处理方法,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。
进一步优选的,步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方系统之间的数据接入方式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电工业互联网有限公司,未经中电工业互联网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010407340.1/2.html,转载请声明来源钻瓜专利网。