[发明专利]一种自定义库开发的大数据处理方法及系统在审

申请号：	202010407340.1	申请日：	2020-05-14
公开（公告）号：	CN111625218A	公开（公告）日：	2020-09-04
发明（设计）人：	胡鹏;傅苗;匡岳锋;贺群雄;曹林	申请（专利权）人：	中电工业互联网有限公司
主分类号：	G06F8/20	分类号：	G06F8/20;G06F8/71
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	邱轶
地址：	410000 湖南省长沙市长沙高新***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自定义开发数据处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自定义库开发的大数据处理方法及系统，该方法包括：搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，定义自定义库开发的接口；进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包；配置相应的自定义库信息，包括自定义库的顺序及每个自定义库的实现类的全类名；将配置的所有自定义库注册到数据处理应用中，并广播到各分布式计算节点；将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。支持根据不同业务逻辑开发相应的数据处理应用，数据处理应用之间可以相互组合，重复使用，从而实现对实时流式数据和离线批量数据一体化处理。

技术领域

本发明涉及数据处理技术领域，具体是一种自定义库开发的大数据处理方法及系统。

背景技术

移动互联网、社交网络和电子商务极大的扩展了互联网应用的疆界和领域，随着互联网应用的高速发展以及业务持续增长和延伸，我们可收集获取的数据规模在不断增长，这些数据具有数据总量大，数据结构多样化，数据增长率高等特点，是典型的大数据。另一方面，用户在使用这些互联网应用时会持续不断地向服务器请求服务，过程中会产生一系列实时的流式数据。如何高效的处理历史存量大数据和实时增量流式数据，成为现阶段大数据处理领域新的研究方向。

现有技术在处理存量或增量数据时，采用并行云计算开发的ETL工具、基于MapReduce开发的流式数据处理框架、通过实现开源计算框架底层计算原理开发的大数据处理系统等，这些都会带来开发难度大，工作量大，技术门槛高等一系列问题。同时基于MapReduce技术框架开发的数据处理系统存在性能不高、处理效率低等问题。

而且，现有技术中对于大数据环境中两类数据：存量数据和增量数据是单独一套系统来处理，没有进行整合，导致相同数据处理业务逻辑需要针对两类数据场景需要进行重复开发；不支持动态配置数据处理逻辑，存在扩展难，复用率低等问题。

发明内容

针对上述现有技术中的一项或多项问题，本发明提供一种自定义库开发的大数据处理方法及系统，支持根据不同业务逻辑开发相应的数据处理应用，数据处理应用之间可以相互组合，重复使用，从而实现对实时流式数据和离线批量数据一体化处理。

为实现上述目的，本发明提供一种自定义库开发的大数据处理方法，包括如下步骤：

步骤1，搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，以及定义自定义库开发的接口；

步骤2，进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包；

步骤3，根据数据处理应用中的数据处理业务配置相应的自定义库信息，包括自定义库的顺序及每个自定义库的实现类的全类名；

步骤4，将配置的所有自定义库注册到数据处理应用中，并广播到各分布式计算节点；

步骤5，将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。

进一步优选的，步骤1中，所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，具体为：

基于Spark平台编写流式计算和批处理计算的数据接入代码，包括：

初始化SparkConf，设置相关基础参数；