[发明专利]增量数据抽取装置和增量数据抽取方法有效
申请号: | 201110303317.9 | 申请日: | 2011-09-29 |
公开(公告)号: | CN102521225A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 姚健;李进闯 | 申请(专利权)人: | 用友软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增量 数据 抽取 装置 方法 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种增量数据抽取装置和一种增量数据抽取方法。
背景技术
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节,快速、准确、高效地找到业务系统中变化的数据并抽取到数据仓库中,是整个数据抽取中最能影响抽取效率的,进行抽取的各种场景包括:抽取修改的财务凭证数据;抽取修改的业务单据;抽取新增的业务数据;找到删除的业务数据。
ERP等业务系统中很多表的数据量在千万行以上,每天需要抽取到数据仓库,每张表抽取的数据量每天也有几万到十几万,而且存在修改之前已经审核甚至记账的数据,要实现增量抽取,关键是如何准确快速的捕获变化的数据。优秀的增量抽取机制要求ETL能够将业务系统中的变化数据按一定的频率准确地捕获到,同时不能对业务系统造成太大的压力,影响现有业务。
在传统的方法中,虽然存在多种机制处理增量抽取,但这些方式都存在明显缺点,如下表所示:
因此,需要一种新的增量数据抽取方案,能够快速、准确、及时地找到增量数据,尤其是在大量数据的情况,能够完成增量数据的抽取,且能够与抽取业务数据逻辑完全分离,同时保证实现难度小,节省用户的成本。
发明内容
本发明所要解决的技术问题在于,提供一种新的增量数据抽取方案,能够快速、准确、及时地找到增量数据,尤其是在大量数据的情况,能够完成增量数据的抽取,且能够与抽取业务数据逻辑完全分离,同时保证实现难度小,节省用户的成本。
有鉴于此,本发明提供一种增量数据抽取装置,包括:关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。通过该技术方案,利用时间戳可以有效地获取增量数据的信息,进行有针对性的抽取,可以大幅提高抽取效率。
在上述技术方案中,优选地,所述增量数据查找模块从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。通过该技术方案,能够有效地区分出增量数据中的新增、修改和删除的数据。
在上述技术方案中,优选地,所述关键信息还包括所述数据的业务时间,所述增量数据查找模块还从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。通过该技术方案,通过统计记录,可以有针对性地查询删除数据的信息,能大幅提高查找效率。
在上述技术方案中,优选地,所述增量数据抽取模块还为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。通过该技术方案,保证了用户对不同类型的增量数据一目了然。
在上述技术方案中,优选地,所述增量数据查找模块还将所述增量数据的关键信息记录预设的增量数据表中;所述增量数据抽取模块根据所述增量数据表,来抽取所述增量数据。通过该技术方案,可以实现一次生成增量数据表,多次进行增量数据抽取,能够提高数据抽取的效率,并可节省资源的消耗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友软件股份有限公司,未经用友软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110303317.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于虚拟数据立方体的多维数据处理方法及其系统
- 下一篇:自动升降称重衡
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置