[发明专利]一种访问HDFS分布式存储系统的标准接口在审
申请号: | 201711022032.1 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107784103A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 袁远松 | 申请(专利权)人: | 北京人大金仓信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙)11210 | 代理人: | 李景华 |
地址: | 100083 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 访问 hdfs 分布式 存储系统 标准 接口 | ||
技术领域
本发明涉及大数据技术领域,具体来说,涉及一种访问HDFS分布式存储系统的标准接口。
背景技术
大数据是目前非常热门的一个话题,而大数据的核心是如何存储、分析、挖掘海量的数据来解决实际的问题。如何存储、查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。HDFS文件系统是一个运行在普通的硬件之上的分布式文件系统,提供了一个高度容错性和高吞吐量的海量数据存储解决方案,非常适合大规模数据集上的应用,广泛应用于大数据作为存储系统。因此,对于HDFS分布式存储系统的访问的研究也就是成为研究大数据的一个热点。
HDFS作为Hadoop的核心组件之一,Hadoop系统中的MapReduce组件虽然能够从中取出数据并进行分析计算,但是,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。显然,直接使用MapReduce无法满足企业快速基于HDFS文件系统进行分析和统计。
SQL作为数据的操作语言,易于使用,广泛应用于数据分析和挖掘领域,并且具有很长的历史。如果HDFS文件系统能够支持用SQL访问,就可以快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。并且还可以快速整合和利用基于SQL的数据分析和数据可视化工具的大型生态系统。因此,如何支持用SQL访问HDFS文件系统成为研究访问HDFS文件系统的一个重要方向。
为了支持用SQL访问HDFS文件系统,Hadoop上推出了一款可以支持类似SQL语言(HiveQL,而非标准的SQL语言)的组件Apache Hive,这是一种类似于SQL的查询引擎,它将有限的SQL语言翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。尽管Hive对于SQL的支持是好的开端,但是它依赖于低效地MapReduce会导致查询出现高延迟,并且对SQL的支持也非常有限。因此,精通SQL的用户在使用时将遇到严重的限制,并且基于标准SQL的庞大的工具生态系统仍然无法直接或少量修改利用Hive。
数据分析供应商和开源社区采取了各种方法实现SQL访问HDFS文件系统。有些供应商已投资优化Apache Hive来缩小Hive与传统SQL引擎之间的性能落差,并增强对SQL语言的支持。而有些供应商则从头构建分布式SQL引擎。比如由Cloudera构建的Impala,采用类似google开源的Dremel的方式,自己实现了一个执行引擎,而不像MapReduce一样是一个通用框架,并且也没有任何failover和high availability的设计。
目前无论采用的各种方案,要不存在对SQL的兼容性不够,要不就是执行的效率不高,要不就是高额的成本,无法很好地满足用户的需要。因此,本发明公开了一种基于传统分布式关系数据库的查询优化框架,底层存储支持HDFS文件系统的方案。它能完全兼容SQL的标准,符合TPC-DS规格,高效地处理各种查询和分析,很好地跟传统基于关系型数据库的数据分析和数据可视化工具整合。
以下为本方案中可能会涉及的部分专业术语:
Hadoop:是一个由Apache基金会所开发的能够对大量数据进行分布式处理的软件框架。用户可在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
HDFS:是Hadoop Distribute File System的简称,也就是Hadoop的一个分布式文件系统,是Hadoop系统中的核心组件之一。
MapReduce:是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠容错并行处理TB级别的数据集,也是Hadoop系统的核心组件之一。
Panda:本发明涉及的一个具体的大规模并行SQL分析引擎。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种访问HDFS分布式存储系统的标准接口,能够提高访问速度,高效处理各种查询和分析。
为实现上述技术目的,本发明的技术方案是这样实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人大金仓信息技术股份有限公司,未经北京人大金仓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711022032.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包装袋(粘鼠板B‑113)
- 下一篇:包装袋(粘蝇板B‑1003)