[发明专利]一种在键值库中进行分布式数据分析的方法有效

申请号：	201210190397.6	申请日：	2012-06-08
公开（公告）号：	CN102750353A	公开（公告）日：	2012-10-24
发明（设计）人：	王建民;丁贵广;朱妤晴;衣国垒;杨义繁	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗文群
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种键值进行分布式数据分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明一种在键值库中进行分布式数据分析的方法，属于数据处理技术领域。

背景技术

映射聚集技术是谷歌公司提出的一种并行计算框架和编程模型，与以往的并行计算方式不同，映射聚集是基于廉价的硬件环境设计，并且具有高吞吐量的计算系统，其开源的的映射聚集实现(即Hadoop)已经成为目前大数据处理的事实标准，目前IBM，微软，甲骨文等大型公司的大数据方案都基于它实现。映射聚集的出现为很多企业提供了一种廉价的大数据处理方式，降低了企业在海量数据下进行数据处理的成本，使得企业对海量数据进行分析处理成为可能，也为海量数据挖掘提供了便捷的形式。

映射聚集的基本计算过程如图1所示。映射聚集的基本思想是计算伴随数据移动，将计算过程简单的划分为映射和聚集两个过程，映射函数在数据所处的节点上完成初始计算，然后聚集函数将映射函数的计算结果通过网络拷贝到聚集任务的执行节点上进行最终结果的聚合，由于聚集函数的输入一般都比较少，所以系统造成的网络负担相对较少，在输入数据非常大的情况下有很大的吞吐量。

在目前看映射聚集技术是一种高效的数据处理技术，非关系型数据库（即NoSQL）技术是一种非常高效、廉价的存储技术，但是两者却不能很好的融合。开源的映射聚集必须运行在分布式文件系统（其中Hadoop的分布式文件系统称作HDFS）上，在采用映射聚集框架和非关系型数据库之后，企业的大数据处理平台的结构如图2所示。

通过图2可以看出为了支持映射聚集的运行，企业必须部署一个运行映射聚集框架的集群和一个分布式文件系统，这样浪费了计算和存储资源，也给企业带来了一定的维护成本，所以在非关系型数据库技术之上，提供对映射聚集的原生支持就显得非常必要了。

另外一种常见的做法就是将非关系型数据库中的数据批量的导入文件系统中，利用分布式文件系统作为数据的输入，进行批量的数据分析，这种方案的缺陷是引入了一个导入的过程，此外需要搭建新的处理框架，给企业带来了不必要的负担。

发明内容

本发明的目的是提出一种在键值库中进行分布式数据分析的方法,消除目前开源的映射聚集框架对分布式文件系统的依赖，让映射聚集框架能够直接运行在非关系型数据库上或者键值库存储上，为键值库存储中的数据分析提供一种原生的工具。

本发明提出的在键值库中进行分布式数据分析的方法，包括以下步骤：

（1）将键值库中与一个哈希范围相对应的数据作为一个数据块，每个数据块有多个相同的副本，多个副本分别存储在不同的计算机上；

（2）从上述多个副本中随机选取一个副本，对该副本进行映射处理，得到多个中间数据块，将该中间数据块存储在进行映射处理的当前计算机上；

（3）从当前计算机上读取多个中间数据块，对读取的多个中间数据块根据用户定义的排序方法进行排序，得到一个有序数据块，对该有序数据块进行聚集处理，得到一个输出文件，该输出文件存储在非关系型数据库上的文件系统中；

（4）启动分布式数据分析过程时，将用户的分布式数据分析程序打包成一个代码包，将该代码包存储在上述非关系型数据库上的文件系统中，并将描述步骤（1）的数据块的信息存储在该文件系统中，数据块描述信息包括哈希范围的起点和终点以及每个副本所在的计算机位置；

（5）中心计算机的任务分配组件根据每个数据块的描述信息，获得数据块的副本所在的计算机位置，并向该计算机分配任务，重复步骤（1）～（3）。

本发明提出在键值库中进行分布式数据分析的方法，其优点是消除了映射聚集框架对分布式文件系统的依赖，映射聚集框架运行需要的数据块的描述信息，可执行代码包都被存储在非关系型数据库上的文件系统中，这样企业在进行数据分析时只需要映射聚集框架和非关系型数据库两个组件，不再需要部署分布式文件系统，降低了资源消耗和维护成本。

附图说明

图1是映射聚集的基本计算流程框图。

图2是已有的分布式数据分析的结构示意图。

图3是本发明方法的在键值库中进行分布式数据分析的结构示意图。

具体实施方式

本发明提出的在键值库中进行分布式数据分析的方法，使用时的系统结构示意图如图3所示，包括以下步骤：

（1）将键值库中与一个哈希范围相对应的数据作为一个数据块，每个数据块有多个相同的副本，多个副本分别存储在不同的计算机上；

（2）从上述多个副本中随机选取一个副本，对该副本进行映射处理，得到多个中间数据块，将该中间数据块存储在进行映射处理的当前计算机上；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210190397.6/2.html，转载请声明来源钻瓜专利网。