[发明专利]一种基于HBase的大表join方法在审

申请号：	201410584560.6	申请日：	2014-10-28
公开（公告）号：	CN104376047A	公开（公告）日：	2015-02-25
发明（设计）人：	卢军佐;曹连超;辛国茂;亓开元;赵仁明;房体盈	申请（专利权）人：	浪潮电子信息产业股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hbase join 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种计算机应用技术领域, 具体地说是一种基于HBase的大表join方法。

背景技术

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在hdfs之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Hadoop Distributed File System（HDFS）被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

HBase采用基于hdfs的分布式列存储给它带来许多优势，首先HBase采用了分布式文件系统使得大数据量的存储成为可能，同时分布式架构支持高并发的访问请求；其次HBase的数据存储结构中每个字段采用数据聚集存储，在查询时如果只需要返回少数几个字段，能大大减少读取的数据量，同时既然是一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。

原生态的HBase虽然在大数据量上的存取有优势，但是对于两个大表的join问题并没有提供很好的解决方法，在HBase中一般采用大表冗余的方法提供关系数据库的join功能，但这种方法容易浪费存储空间，并且对于用户来说采用该方法实现join操作时需要在导入时重新设计数据表的存储结构，对于不了解HBase的使用者显得过于复杂。

发明内容

本发明的目的是提供一种基于HBase的大表join方法。

本发明的目的是按以下方式实现的，通过采用提取join相关列的hashcode，并使用该hashcode作为对HBase region预分区起始范围的方法解决基于HBase的大表join问题。

本发明的方法实现包括三个技术点:对表中某列或某几列采用hashcode分桶；对各表的分桶数据进行均衡操作；实现分布式内存缓存技术，并重写HBase中的scan操作使之完成内存表和磁盘表的对比返回。

1）分桶是处理大数据表常用方法，在hive和其它大数据软件上的应用证明该方法可以大幅提高大数据表的join操作效率。

分桶技术是将表数据按照某列或某几列的hashcode区分开来，然后采用该hashcode作为起始范围实现region预分区，join操作以region为单位并行进行。可以看出本发明利用hbase自身的分区数据存储结构region实现表数据分桶，这样在实现分桶的同时可以利用HBase分布式处理数据的能力。

2）采用region作为数据表中分桶单位，但HBase均衡各个regionserver节点region的数量不是针对各表的，而是节点中region的总数量，这样就必然导致单表的region在各个节点分布不均匀的情况出现，如图1所示，图中绿色、橙色、黄色分别代表三张表在各个节点中的region，从图中可以看出表中数据在各个节点中的数据分配很不均匀，这样就必然导致单个节点计算量过大拖慢整个计算效率。本发明通过重写HBase的LoadBalancer策略使得各个的region均匀分布到各个节点的regionserver中去。

3）实现分布式缓存机制，在join操作的过程中需要将其中一张表放入临时缓存中，以便改写后的scan函数可以完成两张表的对比join操作；分布式缓存机制采取根据分桶号以region为数据单位分布式存储的缓存机制，该机制可以利用分桶号将两表对应列存储到同一节点。

本发明的有益效果是：针对HBase的大表join问题，借鉴了分布式大数据表操作常采用的分桶技术，提出一种基于hashcode预分区的方法，该方法充分利用了HBase的数据存储特定，高效的解决HBase多表关联问题。

附图说明

图1是hbase中region分布图。

具体实施方式

参照说明书附图对本发明的基于HBase的大表join方法作以下详细地说明。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司，未经浪潮电子信息产业股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410584560.6/2.html，转载请声明来源钻瓜专利网。