[发明专利]用于并行化数据处理的方法和装置有效
申请号: | 201310261903.0 | 申请日: | 2013-06-27 |
公开(公告)号: | CN104252472B | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 段宁;齐轶;朱俊;嵇鹏;张琦;黄巍 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/38 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 张静美,于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 并行 数据处理 方法 装置 | ||
1.一种用于并行化数据处理的方法,包括:
解析数据处理流,以便切割用于所述数据处理流的写表序列;
至少部分地基于被切割的所述写表序列来生成所述数据处理流的至少两个实例,其中,所述写表序列被切割成至少两个分段,并且相邻的分段指示了不同的数据库表;以及
调度所述至少两个实例进行并行化的数据处理。
2.根据权利要求1所述的方法,其中,对所述写表序列的切割是根据所述写表序列的聚类结构来实现的。
3.根据权利要求1或2所述的方法,其中,所述至少两个实例在同一时间对不同的数据库表进行写操作。
4.根据权利要求1或2所述的方法,其中,调度所述至少两个实例进行并行化的数据处理包括:使用流水线技术来调度所述至少两个实例。
5.根据权利要求1或2所述的方法,其中,所述数据处理包括数据提取、转换和加载。
6.根据权利要求1或2所述的方法,其中,所述数据处理流包括并行执行的多个数据处理子任务中的任何一个子任务。
7.根据权利要求6所述的方法,其进一步包括:
扫描数据库分区;以及
至少部分地基于扫描结果来将数据处理任务的所述多个数据处理子任务分派到所述数据库分区。
8.根据权利要求7所述的方法,其中,扫描所述数据库分区包括:
扫描数据库分区键表,以便获得数据库分区键;以及
对所述数据库分区和所述数据库分区键进行映射,以便获知所述数据库分区的数目。
9.根据权利要求8所述的方法,其中,将所述多个数据处理子任务分派到所述数据库分区包括:
至少部分地基于所述数据库分区的数目来将所述数据处理任务并行化成所述多个数据处理子任务;
将所述多个数据处理子任务分派到相应的数据库分区;以及
并行地执行所述多个数据处理子任务。
10.一种用于并行化数据处理的装置,包括:
解析单元,其被配置为解析数据处理流,以便切割用于所述数据处理流的写表序列,其中,所述写表序列被切割成至少两个分段,并且相邻的分段指示了不同的数据库表;
生成单元,其被配置为至少部分地基于被切割的所述写表序列来生成所述数据处理流的至少两个实例;以及
调度单元,其被配置为调度所述至少两个实例进行并行化的数据处理。
11.根据权利要求10所述的装置,其中,对所述写表序列的切割是根据所述写表序列的聚类结构来实现的。
12.根据权利要求10或11所述的装置,其中,所述至少两个实例在同一时间对不同的数据库表进行写操作。
13.根据权利要求10或11所述的装置,其中,调度所述至少两个实例进行并行化的数据处理包括:使用流水线技术来调度所述至少两个实例。
14.根据权利要求10或11所述的装置,其中,所述数据处理包括数据提取、转换和加载。
15.根据权利要求10或11所述的装置,其中,所述数据处理流包括并行执行的多个数据处理子任务中的任何一个子任务。
16.根据权利要求15所述的装置,其进一步包括:
扫描单元,其被配置为扫描数据库分区;以及
分派单元,其被配置为至少部分地基于扫描结果来将数据处理任务的所述多个数据处理子任务分派到所述数据库分区。
17.根据权利要求16所述的装置,其中,扫描所述数据库分区包括:
扫描数据库分区键表,以便获得数据库分区键;以及
对所述数据库分区和所述数据库分区键进行映射,以便获知所述数据库分区的数目。
18.根据权利要求17所述的装置,其中,将所述多个数据处理子任务分派到所述数据库分区包括:
至少部分地基于所述数据库分区的数目来将所述数据处理任务并行化成所述多个数据处理子任务;
将所述多个数据处理子任务分派到相应的数据库分区;以及
并行地执行所述多个数据处理子任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310261903.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地图标注的加载方法和装置
- 下一篇:一种智能化的文件管理系统