[发明专利]一种基于Hadoop架构的数据存储系统在审

申请号：	201711133881.4	申请日：	2017-11-15
公开（公告）号：	CN107800808A	公开（公告）日：	2018-03-13
发明（设计）人：	何烈军;杨培锋;苏灿廷	申请（专利权）人：	广东奥飞数据科技股份有限公司
主分类号：	H04L29/08	分类号：	H04L29/08;G06F17/30
代理公司：	北京细软智谷知识产权代理有限责任公司11471	代理人：	张丹
地址：	510000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hadoop 架构数据存储系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于大数据存储技术领域，具体涉及一种基于Hadoop架构的数据存储系统。

背景技术

数据按类型分为结构化数据、半结构化数据和非结构化数据，其中结构化数据是指能够以二维结构表示的一种数据类型，能通过关系型数据库存储；半结构化数据是指具有一定结构，但语义不够明确的一种数据类型，如邮件、HTML网页等，它们有些字段是确定的，也有些字段是不确定的；非结构化数据是指无法用二维结构表示的一种数据类型，主要包括办公文档、文本、图片、音视频文件等，无法采用关系型数据库进行处理。伴随社交网络的兴起和发展，产生了大量的UGC(User Generated Content，用户生成内容)，包括音频、视频、文本和图片等非结构化数据。另外，物联网的数据量也剧增，加上移动互联网可以更加准确、快速地搜集用户信息，如位置、生活信息等数据，大数据处理给我们提出了新的挑战。在所有数据中，结构化数据占数据总量的20％，半结构化数据和非结构化数据占数据总量的80％，如何科学管理和合理应用这些数据显得日益重要。

目前针对大数据的处理技术，包括并行数据库、MapReduce技术、并行数据库和MapReduce技术混合架构，其中对于大数据的统一处理技术属于第三类并行数据库和MapReduce技术混合架构，该技术有分为并行数据库主导型、MapReduce主导型、并行数据库和MapReduce集成型三种。并行数据库主导型是利用MapReduce来增强并行数据库的数据处理功能，如EMC的Greenplum，Aster Data，但其可扩展性和容错能力并未改变；MapReduce主导型是利用关系数据库的SQL(Structure Query Language，结构化查询语言)接口和对模式的支持来改善MapReduce的易用性，如Hive、Pig Latin，但其对于数据处理的实时性方面仍无法满足需求；并行数据库和MapReduce集成型是借助Hadoop框架来获得较好的容错性和对异构环境的支持，同时获得关系型数据库的性能优势，但是目前并无应用案例，究其原因在于无法把工作推给适合的执行引擎。

综上所述，现有的大数据存储技术中，并行数据库主导型可扩展性和容错能力不佳；MapReduce主导型数据处理的实时性方面仍无法满足需求；并行数据库和MapReduce集成型无法把工作推给适合的执行引擎。因此，在大数据存储领域，一直渴望一种对海量结构化数据和非结构化数据进行统一管理并且数据处理灵活性和易用性较好的存储系统。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于Hadoop架构的数据存储系统。

为实现以上目的，本发明采用如下技术方案：

一种基于Hadoop架构的数据存储系统，其改进之处在于：

所述存储系统包括至少一应用服务器、备份服务器、数据库集群以及至少一核心层交换机；

所述数据库集群包括第一子存储集群和第二子存储集群；将所述结构化数据的基础数据存储至第一子存储集群，将所述非结构化和半结构化的松散数据存储至第二子存储集群；

所述应用服务器、备份服务器、数据库集群分别连接所述核心层交换机；

所述应用服务器连接所述备份服务器和数据库集群，用于管理备份服务器和数据库集群的实时数据。

进一步的，

所述第二子存储集群包括一个主服务器和多个块服务器；所述主服务器和和多个块服务器构建Hadoop集群平台；所述Hadoop集群平台中的HDFS模块用于存储Hadoop集群中所有存储节点上的文件。

进一步的，所述主服务器配置管理者文件系统NameNode名称节点，用于在HDFS模块内部提供元数据服务；所述块服务器配置文件系统的DataNode数据节点，用于根据客户端或者是NameNode名称节点的调度存储和检索数据，并定期向NameNode名称节点发送所存储的块的列表。

进一步的，存储在HDFS模块中的文件被分成块，将存储的块复制到多个块服务器DataNode数据节点上，所述主服务器NameNode名称节点用于控制多个块服务器DataNode数据节点上所有文件操作；HDFS模块内部通信采用TCP/IP协议。