[发明专利]一种数据增量合并的方法及其装置在审
申请号: | 201210350470.1 | 申请日: | 2012-09-20 |
公开(公告)号: | CN103678392A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 朱晓克 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 杨天娇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 增量 合并 方法 及其 装置 | ||
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据增量合并的方法及其装置。
背景技术
随着互联网的普及和数字信息技术的飞速发展,几乎每天都能产生海量的电子数据,已经很难衡量现今的社会中存储的电子数据总量。如今不仅产生和存储的电子数据数量庞大,而且数据本身也越来越趋于复杂化,对于海量数据的处理,已经越来越受到关注。
在海量数据的处理中,海量数据增量合并技术是每个拥有大数据量企业都会采用的方法。海量数据增量合并技术是从生产系统数据库中抓取当天新增和更新的数据,和截止到前一天的全量数据做合并的技术,传统的海量数据合并要么是通过全表和增量数据做合并,保证数据的精确性,但是消耗巨大的计算资源;要么通过截取一段周期的全量数据和增量数据合并,通过损失数据准确性,保证性能可控。
但传统的海量数据增量合并技术如果全量数据和增量做合并,因为数据量大,消耗计算资源多,任务运行时间长,而且大数据量合并容易引发系统内存溢出等问题。如果截取固定时间(比如近三个月)和增量数据做合并,则影响数据的准确性,影响下游应用方对数据的使用。
发明内容
本申请的目的是解决海量数据增量合并带来的计算资源消耗和性能不可控的问题,提出一种海量数据增量合并的方法。
一种海量数据增量合并的方法,用于对拥有海量数据的数据仓库全量表做增量合并,包括步骤:
设置分区字段;
抽取当前的增量数据;
对抽取的增量数据的分区字段进行规整,确定具体的分区标识;
根据所述的分区标识,对全量表进行分区过滤,抽取出所述分区对应的分区数据表;
将所述增量数据与所述的分区数据表合并,得到更新后的分区数据表,并将更新后的分区数据表重新插回到全量表。
进一步地,所述的抽取当前的增量数据的方法还包括步骤:
确定抽取规则,按照抽取规则抽取当前的增量数据。常用的抽取规则包括按创建时间抽取,按修改时间抽取和按标志字段抽取,具体采用何种抽取规则需要根据数据表的具体属性来进行选择,保证抽取的是增量数据即可。
进一步地,所述的分区字段为固定不变的日期字段。数据仓库中的数据表包含一条条的记录,每条记录包含多个标志字段,通常把记录中固定不变的日期字段设置为分区字段,以便确定具体的分区。当采用固定不变的日期字段时,所述的分区标识为所述增量数据固定不变的日期字段对应的日期,分区标识也可以采用该日期字段对应的月份,根据数据量的大小做不同的设置。
当数据表是拉链表时,一种数据增量合并的方法的另一种实现方式,用于数据仓库拉链表增量合并,所述的拉链表包括记录生效时间字段和记录失效时间字段,所述的拉链表分为拉链表当前分区和拉链表历史分区,所述拉链表增量合并的方法包括步骤:
抽取增量数据;
将抽取的增量数据与所述拉链表当前分区进行比较;
将拉链表当前分区和增量数据中,在增量数据中存在最新更新的非最新数据,插入到拉链表历史分区中;
将增量数据中新增和最新更新的数据插入到拉链表当前分区中。
进一步地,所述的抽取增量数据的方法还包括步骤:确定抽取规则,按照抽取规则抽取增量数据。常用的抽取规则包括按创建时间抽取,按修改时间抽取和按标志字段抽取,具体采用何种抽取规则需要根据数据表的具体属性来进行选择,保证抽取的是增量数据即可。
进一步地,所述将拉链表当前分区和增量数据中,在增量数据中存在最新更新的非最新数据,插入到拉链表历史分区中,采用的是动态分区的更新方法,所述的动态分区的更新方法包括步骤:
根据所述非最新数据的记录生效时间和记录失效时间,将该非最新数据插入到所述记录生效时间和记录失效时间对应的历史分区中。动态分区更新方法能够按照记录生效时间和记录失效时间的值动态的把记录插入到相应的分区中,同时更新多个分区。
进一步地,所述将拉链表当前分区和增量数据中,在增量数据中存在最新更新的非最新数据,插入到拉链表历史分区中还包括步骤:将所述的非最新数据的记录失效时间变更为该记录的更新时间。
本申请还提出了一种数据增量合并装置,用于对拥有海量数据的数据仓库全量表做增量合并,包括:
设置模块,用于设置分区字段;
增量数据抽取模块,用于抽取当前的增量数据;
分区标识模块,用于根据增量数据,确定具体的分区标识;
分区数据抽取模块,用于根据分区标识,从全量表中抽取所述分区标识对应的分区数据表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210350470.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置