[发明专利]一种大批量数据的预处理及入库的方法在审
申请号: | 201910794841.7 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110489403A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 赵伟;康磊 | 申请(专利权)人: | 江苏华库数据技术有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/25 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据预处理过程 加载 集群数据库系统 预处理 数据预处理 预处理过程 源数据文件 输出 负载均衡 集群存储 集群资源 数据提交 数据文件 相对独立 写锁 并发 空闲 入库 | ||
一种大批量数据的预处理及入库的方法,具体方法包括以下步骤:步骤一、第一个过程是数据预处理的过程,该过程的输入是待加载的源数据文件,输出是可以直接给第二个过程使用的集群存储层数据文件;步骤二、第二个过程是数据提交过程,即将预处理过程的输出提交到集群数据库系统中。本方法中加载的数据预处理过程不需要持有加载表的写锁,可以与加载表的其它DML并发进行;数据预处理过程相对独立,可以将数据预处理过程放置到集群资源比较空闲的节点上,实现负载均衡。
技术领域
本发明属于数据库领域,尤其是一种大批量数据的预处理及入库的方法。
背景技术
传统的MPP大规模集群的数据加载入库过程如下图1所示,传统的集群数据加载在加载的整个过程中都需要持有加载表的写锁,这种加载方式对于该表的其它DML写操作都会被阻塞到加载结束。如果加载数据量大的情况下,加载长时间独占该表的写锁,造成加载表的其它DML业务被长时间阻塞。实际上加载过程的前几个阶段数据读取、分发、解析、存储层格式转换都不需要持有加载表的写锁,因为这几个阶段并不影响读写版本,只有在提交阶段才会影响数据的读写版本。
发明内容
本发明要解决的问题是提供了一种大批量数据的预处理及入库的方法。
为实现上述目的,本发明提供如下技术方案:一种大批量数据的预处理及入库的方法包括以下步骤:步骤一、第一个过程是数据预处理的过程,该过程的输入是待加载的源数据文件,输出是可以直接给第二个过程使用的集群存储层数据文件;
步骤二、第二个过程是数据提交过程,即将预处理过程的输出提交到集群数据库系统中。
作为优选,所述的步骤一中数据预处理的过程是由一个独立的线程从加载机读取源数据并根据相应的分布规则将数据分为若干个子集,每个子集相当于传统方式中分发到集群节点的数据子集,然后采用多线程的方式对各数据子集进行校验与存储层格式的转换处理,再由一个独立的线程根据不同的数据子集将处理好的存储层格式文件分发到相应的数据节点,供第二个加载过程数据提交过程使用,上述的阶段为流水线的方式进行,边读取源数据,边校验和存储层格式的转换,边将处理好的存储层格式文件分发到相应的数据节点,直到整个数据都被处理与分发完成后,由主进程发起提交转为加载的第二个过程。
进一步优选,所述的步骤一中数据预处理过程中不需要持有加载表的写锁,因此数据的预处理过程是可以与加载表的其它DML并发的进行,也可以对同一个加载表进行并发加载,另外可以根据集群负载情况将数据预处理过程放置到集群上任意节点上。
作为优选,所述的步骤二中数据提交过程中,数据提交过程中是需要加载表的写锁。
作为优选,所述的二加载表的存储层数据文件会有变化,且加载过程是由多个集群节点将数据转换为存储层格式文件,所以会有不饱和的存储层数据文件产生。
作为优选,所述的加载方式在生成存储层数据文件的时候以特殊命名的文件形式与加载表的存储层数据文件进行区分,只有当提交过程得到集群允许本次加载提交的时候,即是拿到加载表的写锁的时候,存储层负责将不饱和数据文件合并,然后再根据存储层的命名规则重命名后追加写到加载表的存储层数据文件写版本中,并进行读写版本切换完成数据提交过程。
作为优选,本发明中所处理的数据是有格式的、以数据行为单位组织的文本或二进制文件。
与现有技术相比,本发明的有益效果是:1、加载的数据预处理过程不需要持有加载表的写锁,可以与加载表的其它DML并发进行;
2、数据预处理过程相对独立,可以将数据预处理过程放置到集群资源比较空闲的节点上,实现负载均衡。
附图说明
图1是背景技术中传统的MPP大规模集群的数据加载入库过程图;
图2为本发明实施例中大批量数据的预处理及入库的方法过程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华库数据技术有限公司,未经江苏华库数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910794841.7/2.html,转载请声明来源钻瓜专利网。