[发明专利]一种基于ApacheSqoop的从关系型数据库到Kafka的数据导入装置及方法在审
申请号: | 201710619621.1 | 申请日: | 2017-07-26 |
公开(公告)号: | CN107609008A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 尚平平 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南舜源专利事务所有限公司37205 | 代理人: | 张亮 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 apachesqoop 关系 数据库 kafka 数据 导入 装置 方法 | ||
技术领域
本发明涉及计算机软件应用技术领域,具体涉及一种针对大量数据的快速导入处理技术。
背景技术
在社会快速发展的今天,各行各业每天都会产生大量的数据,数据来源囊括了我们周围可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。在这种环境下,Apache框架Hadoop应运而生,它是一个越来越通用的分布式计算环境,主要用来处理大数据,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。随着云提供商利用这个框架,更多的用户将数据集在Hadoop和传统数据库之间转移,能够帮助数据传输的工具变得更加重要。
Apache Sqoop就是这样一款工具,可以在Hadoop和关系型数据库之间转移大量数据,主要用于在Hadoop与传统数据库间进行数据的传递,可以将一个关系型数据库中的数据导入到HDFS、Hive、Hbase中,也可将HDFS的数据导入到关系型数据库中。
Kafka是一种高吞吐量的分布式发布订阅消息系统。现实场景有时也需要将数据从数据库发送到kafka中。数据从关系型数据库导入到Kafka有多种方法,其中最直接的方法就是利用数据库驱动程序和Kafka API自己编写程序进行导入。Sqoop作为数据传递工具,暂时没有支持该场景。
故,针对上述现有技术中将数据从关系型数据库到kafka导入存在的不便捷、不高效的问题,实有必要进行开发研究,以提供一种方案,能够实现数据从关系型数据库到Kafka的高效便捷的导入。
发明内容
为解决上述技术问题,本发明提供是一种基于Apache Sqoop的从关系型数据库到Kafka的数据导入方案,具体如下:
第一方面,本发明提供一种基于Apache Sqoop的从关系型数据库到Kafka 的数据导入装置,其特征在于,包括分析模块、参数注入模块、输入模块、校验模块、任务判断模块、数据切分模块、映射模块、存储模块,其中:
分析模块,用于分析从关系型数据库导入数据到Kafka需要的参数,参数包括用于指定Kafka服务器地址的第一参数和用于指定数据接收topic的第二参数;
参数注入模块,用于根据分析模块的分析结果进行第一参数和第二参数的注入;
输入模块,用于用户对参数进行输入;
校验模块,用于对用户输入的第一参数和第二参数进行校验;
任务判断模块,用于根据用户的输入判断是否是导入Kafka的任务;
数据切分模块,用于Sqoop将从关系型数据库中读出的数据进行切分;
映射模块,用于从数据切分模块逐行提取数据,并将数据发送到第一参数指定的地址;
存储模块,Kafka将接收的消息存储到“topic”相应的目录。
进一步的,Kafka服务器地址为消息推送目的地址。
进一步的,任务判断模块根据用户输入的参数,检测输入的参数是否包含第一参数和第二参数来决定是否是导入Kafka的任务。
进一步的,通过对从数据切分模块提取的数据进行处理并将其发送到Kafka 进行并行运算,来保证映射模块的运行,数据处理包括增加数据产生的时间戳、来自的数据库名以及表名信息。
第二方面,本发明提供一种基于Apache Sqoop的从关系型数据库到Kafka 的数据导入方法,其特征在于,包括:
SS1:分析从关系型数据库导入数据到Kafka需要的参数,参数包括用于指定Kafka服务器地址的第一参数和用于指定数据接收topic的第二参数;
SS2:根据分析模块的分析结果进行第一参数和第二参数的注入;
SS3:用户对参数进行输入;
SS4:对用户输入的第一参数和第二参数进行校验;
SS5:根据用户的输入判断是否是导入Kafka的任务;
SS6:Sqoop将从关系型数据库中读出的数据进行切分;
SS7:逐行提取数据,并将数据发送到第一参数指定的地址;
SS8:Kafka将接收的消息存储到“topic”相应的目录。
进一步的,步骤SS1中Kafka服务器地址为消息推送目的地址。
进一步的,步骤SS5根据用户输入的参数,检测输入的参数是否包含第一参数和第二参数来决定是否是导入Kafka的任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710619621.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:食品安全提示系统
- 下一篇:文本情感分析方法、装置、存储介质和计算机设备