[发明专利]用于并行化数据处理的方法和装置有效
申请号: | 201310261903.0 | 申请日: | 2013-06-27 |
公开(公告)号: | CN104252472B | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 段宁;齐轶;朱俊;嵇鹏;张琦;黄巍 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/38 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 张静美,于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 并行 数据处理 方法 装置 | ||
技术领域
本发明涉及计算机系统,更具体地,涉及用于并行化数据处理的方法和装置。
背景技术
数据库分区特性(DPF)功能能够针对跨多个服务器的数据库(DB)进行分区,从而改进对大数据库的管理,并且有利于解决多租户问题。举例来说,在相连的车载平台中,不同公司的数据常常存储在不同的数据库分区上。在分区数据库上调用和运行数据库管理命令时,可以指定是针对哪些分区运行命令,从而能够更灵活地管理数据库和资源。
另一方面,在系统开发过程中已经广泛地使用了诸如数据提取、转换和加载(ETL)这样的数据处理技术。举例来说,ETL可以对分散的、异构数据源中的数据进行提取,然后进行清洗、转换、集成,最后加载到数据库中,成为联机分析处理、数据挖掘的基础。近来对ETL工具方面的开发包括希望能够实现并行处理,这在处理大量数据的时候可以改善ETL处理的整体性能。大数据分析和应用需要高性能的ETL,因此,改进常规的ETL工具和处理以便更好地满足应用需求是值得期待的。
发明内容
根据本发明的第一方面,提供了一种用于并行化数据处理的方法。该方法可以包括:解析数据处理流,以便切割用于所述数据处理流的写表序列;至少部分地基于被切割的所述写表序列来生成所述数据处理流的至少两个实例;以及调度所述至少两个实例进行并行化的数据处理。
根据本发明的第二方面,提供了一种用于并行化数据处理的装置。该装置可以包括:解析单元,其被配置为解析数据处理流,以便切割用于所述数据处理流的写表序列;生成单元,其被配置为至少部分地基于被切割的所述写表序列来生成所述数据处理流的至少两个实例;以及调度单元,其被配置为调度所述至少两个实例进行并行化的数据处理。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2是依照本发明示例性实施方式说明了用于并行化数据处理的方法的流程图。
图3是依照本发明示例性实施方式说明了ETL流解析过程的示意图。
图4是依照本发明示例性实施方式说明了数据处理耗时情况的示意图。
图5依照本发明示例性实施方式示意性地示出了ETL并行化与数据库分区的关系。
图6是依照本发明示例性实施方式说明了将DPF与ETL并行化进行结合的示意图。
图7是依照本发明示例性实施方式说明了利用数据库分区信息来增强ETL性能的示意图。
图8是依照本发明示例性实施方式说明了利用DPF来并行化DB ETL的示意图。
图9是依照本发明示例性实施方式的用于并行化数据处理的装置的框图。
具体实施方式
在附图中显示了本公开的一些优选实施方式,下面将参照附图更详细地描述这些优选实施方式。然而,可以以各种形式实现本公开,其不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310261903.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地图标注的加载方法和装置
- 下一篇:一种智能化的文件管理系统