[发明专利]一种基于ApacheSqoop的从关系型数据库到Kafka的数据导入装置及方法在审

专利信息
申请号: 201710619621.1 申请日: 2017-07-26
公开(公告)号: CN107609008A 公开(公告)日: 2018-01-19
发明(设计)人: 尚平平 申请(专利权)人: 郑州云海信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南舜源专利事务所有限公司37205 代理人: 张亮
地址: 450000 河南省郑州市*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 apachesqoop 关系 数据库 kafka 数据 导入 装置 方法
【说明书】:

技术领域

发明涉及计算机软件应用技术领域,具体涉及一种针对大量数据的快速导入处理技术。

背景技术

在社会快速发展的今天,各行各业每天都会产生大量的数据,数据来源囊括了我们周围可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。在这种环境下,Apache框架Hadoop应运而生,它是一个越来越通用的分布式计算环境,主要用来处理大数据,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。随着云提供商利用这个框架,更多的用户将数据集在Hadoop和传统数据库之间转移,能够帮助数据传输的工具变得更加重要。

Apache Sqoop就是这样一款工具,可以在Hadoop和关系型数据库之间转移大量数据,主要用于在Hadoop与传统数据库间进行数据的传递,可以将一个关系型数据库中的数据导入到HDFS、Hive、Hbase中,也可将HDFS的数据导入到关系型数据库中。

Kafka是一种高吞吐量的分布式发布订阅消息系统。现实场景有时也需要将数据从数据库发送到kafka中。数据从关系型数据库导入到Kafka有多种方法,其中最直接的方法就是利用数据库驱动程序和Kafka API自己编写程序进行导入。Sqoop作为数据传递工具,暂时没有支持该场景。

故,针对上述现有技术中将数据从关系型数据库到kafka导入存在的不便捷、不高效的问题,实有必要进行开发研究,以提供一种方案,能够实现数据从关系型数据库到Kafka的高效便捷的导入。

发明内容

为解决上述技术问题,本发明提供是一种基于Apache Sqoop的从关系型数据库到Kafka的数据导入方案,具体如下:

第一方面,本发明提供一种基于Apache Sqoop的从关系型数据库到Kafka 的数据导入装置,其特征在于,包括分析模块、参数注入模块、输入模块、校验模块、任务判断模块、数据切分模块、映射模块、存储模块,其中:

分析模块,用于分析从关系型数据库导入数据到Kafka需要的参数,参数包括用于指定Kafka服务器地址的第一参数和用于指定数据接收topic的第二参数;

参数注入模块,用于根据分析模块的分析结果进行第一参数和第二参数的注入;

输入模块,用于用户对参数进行输入;

校验模块,用于对用户输入的第一参数和第二参数进行校验;

任务判断模块,用于根据用户的输入判断是否是导入Kafka的任务;

数据切分模块,用于Sqoop将从关系型数据库中读出的数据进行切分;

映射模块,用于从数据切分模块逐行提取数据,并将数据发送到第一参数指定的地址;

存储模块,Kafka将接收的消息存储到“topic”相应的目录。

进一步的,Kafka服务器地址为消息推送目的地址。

进一步的,任务判断模块根据用户输入的参数,检测输入的参数是否包含第一参数和第二参数来决定是否是导入Kafka的任务。

进一步的,通过对从数据切分模块提取的数据进行处理并将其发送到Kafka 进行并行运算,来保证映射模块的运行,数据处理包括增加数据产生的时间戳、来自的数据库名以及表名信息。

第二方面,本发明提供一种基于Apache Sqoop的从关系型数据库到Kafka 的数据导入方法,其特征在于,包括:

SS1:分析从关系型数据库导入数据到Kafka需要的参数,参数包括用于指定Kafka服务器地址的第一参数和用于指定数据接收topic的第二参数;

SS2:根据分析模块的分析结果进行第一参数和第二参数的注入;

SS3:用户对参数进行输入;

SS4:对用户输入的第一参数和第二参数进行校验;

SS5:根据用户的输入判断是否是导入Kafka的任务;

SS6:Sqoop将从关系型数据库中读出的数据进行切分;

SS7:逐行提取数据,并将数据发送到第一参数指定的地址;

SS8:Kafka将接收的消息存储到“topic”相应的目录。

进一步的,步骤SS1中Kafka服务器地址为消息推送目的地址。

进一步的,步骤SS5根据用户输入的参数,检测输入的参数是否包含第一参数和第二参数来决定是否是导入Kafka的任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710619621.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top