[发明专利]分布式数据自动结构化入库方法及系统在审
申请号: | 201910971142.5 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110737710A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 施红;陆晓 | 申请(专利权)人: | 神州数码融信软件有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/23;G06F16/27;G06F16/28;G06F9/54 |
代理公司: | 11303 北京方韬法业专利代理事务所(普通合伙) | 代理人: | 党小林 |
地址: | 100000 北京市海淀区西北旺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 入库 分布式数据 自动结构 写入 格式化 第三方系统 对象执行 消息队列 原始消息 写数据 源系统 解耦 独立性 存储 保证 | ||
1.一种分布式数据自动结构化入库方法,其特征在于,包括:
将需要入库的原始消息同步或者异步的写入kafka集群;
利用kafka集群的消息队列,对写入消息进行存储;
根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作。
2.根据权利要求1所述的分布式数据自动结构化入库方法,其特征在于,还包括:
通过zookeeper对所述kafka集群中的节点进行注册与维护。
3.根据权利要求1所述的分布式数据自动结构化入库方法,其特征在于,根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作,包括:
把从kafka获取的各种格式的数据转化为系统内部结构化数据;
把内部结构化数据转化成数据库入库引擎所需的入库对象;
将所述入库对象映射为数据库的存入数据。
4.根据权利要求3所述的分布式数据自动结构化入库方法,其特征在于,根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作,包括:
在将所述入库对象映射为数据库的存入数据之后,利用入库引擎动态生成入库所需的sql。
5.根据权利要求3所述的分布式数据自动结构化入库方法,其特征在于,根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作,还包括:
在把从kafka获取的各种格式的数据转化为系统内部结构化数据之前,监听kafka消息;
如果监听到kafka消息,判断是否有空闲线程;
如果有空闲线程,向线程池提交数据入库任务。
6.根据权利要求3所述的分布式数据自动结构化入库方法,其特征在于,根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作,还包括:
在将所述入库对象映射为数据库的存入数据之后,如果失败则记录失败日志,设置再处理标识,记录该数据主键及数据包。
7.根据权利要求1所述的分布式数据自动结构化入库方法,其特征在于,还包括:
在执行入库操作之后,对入库失败的数据,重新执行入库操作。
8.根据权利要求5或6所述的分布式数据自动结构化入库方法,其特征在于,对入库失败的数据,重新执行入库操作,包括:
根据记录的数据主键,对入库失败的数据重新执行入库操作。
9.一种分布式数据自动结构化入库系统,其特征在于,包括:
消息生产者,用于将需要入库的原始消息同步或者异步的写入kafka集群;
kafka集群,用于通过自身的消息队列,对写入消息进行存储;
消息消费者,用于根据所述kafka集群的消息,对所述kafka集群中的格式化对象执行入库操作。
10.一种分布式数据自动结构化入库系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至8任意一项所述的分布式数据自动结构化入库方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神州数码融信软件有限公司,未经神州数码融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910971142.5/1.html,转载请声明来源钻瓜专利网。