[发明专利]一种针对海量非结构化数据的资源管理方法有效
申请号: | 201610003635.6 | 申请日: | 2016-01-04 |
公开(公告)号: | CN105677826A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 张善海;熊贵喜;蔡朝辉;杜博文;凌萍;谢志普 | 申请(专利权)人: | 博康智能网络科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海胜康律师事务所 31263 | 代理人: | 张坚 |
地址: | 201209 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 海量 结构 数据 资源管理 方法 | ||
技术领域
本发明涉及分布式数据库HBase以及分布式文件系统HDFS领域,特别涉及一种针对 海量非结构化数据的资源管理方法。
背景技术
HDFS的全称为HadoopDistributedFilesystem,是Hadoop的旗舰级文件系统。其 思想来源于Google文件系统(GoogleFileSystem,GFS),并适合一次写入、多次读取 的访问模式,满足城市多源数据应用场景。它是一个适合存储大文件的分布式文件系统, 可以作为Hadoop和Spark的数据源。
HBase是基于谷歌Bigtable开发的开源分布式数据库,它不是传统的关系型数据库, 其最初的宗旨就是解决传统关系型数据库在处理大规模海量数据时理论以及实践上的不 足问题。由于HBase的底层数据是存储在HDFS上,故HBase同样具有高容错性。HBase的 主要特点有:
1)高可扩展性。在存储容量上,HBase实现了线性水平扩展。当数据量达到一定阀值 时,HBase将对数据进行水平分割,并将分割块分配到集群的上千个服务器中。当数据的 规模到达集群的极限时,HBase还支持扩大集群数量,实现不停机动态无缝扩容。
2)高性能。HBase的设计初衷就是要满足用户高并发的海量数据查询。它有两点机制 来保障高效的并发查询。一是数据分割。HBase将数据分割到集群的每个节点,当用户查 询数据时,每个节点可同时返回相应的数据块,实现并发查询。二是缓存机制。HBase设 计了高效的缓存机制,特别设置了MemStore单元作为数据读写时的Cache,能够显著地提 高数据访问的命中率。
3)高可用性。HBase的底层是利用HDFS来存储数据的,HDFS本身即具有高容错性。 当某台机器数据丢失时,HBase可通过HDFS找到这些数据的备份,并重新复制拷贝,更新 系统记录表。这样保证了HBase系统的高可用性。
而随着目前城市数据量日益庞大,非结构化数据种类越来越多,如何在分布式系统上 对海量非结构化数据进行存储和管理正成为研究的方向。
发明内容
本发明针对城市非结构化数据日益庞大,处理日益费时的技术问题,提出一种针对海 量非结构化数据的资源管理方法,该方法能够对海量非结构化数据进行有效的组织和管 理。
一种针对海量非结构化数据的资源管理方法,包括以下步骤:
步骤a:根据非结构化数据文件的大小确定其存储方式,当所述非结构化数据文 件大小超过给定阈值时,将其存入HDFS文件系统,并在HBase上创建的数据表中存储 其基本信息及在HDFS上的路径;当所述非结构化数据文件大小小于等于给定阈值时, 将所述文件序列化并直接存储在HBase数据库中;
步骤b:根据所述非结构化数据构建元数据表和数据索引表,并利用所述元数据 表构建元数据索引表;
步骤c:当查询元数据时,根据要查找的元数据的主题或标签对所述元数据索引 表进行查找,以获得对应的数据表;以及
步骤d:当查询非结构化数据记录时,根据所述数据索引表的命名规则找到数据 表对应的数据索引表,之后在所述数据索引表中查找所述非结构化数据记录的语义标 签,获得所要查找的数据记录的主键,然后根据所述主键在所述数据表中快速定位数 据。
根据本发明的针对海量非结构化数据的资源管理方法,对于海量非结构化数据, 可以进行有效组织和管理,能够进行快速、高效地查询,大大提高了数据处理效率。
附图说明
图1是根据本发明方法的数据处理流程图。
图2是非结构化数据统一存储示例图。
图3是数据库中数据表的层次结构图。
图4为数据资源查询示意图。
具体实施方式
以下结合附图对本发明进行详细说明。以下实施例并不是对本发明的限制。在不背离 发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中。
图1是根据本发明方法的数据处理流程图,包含数据的存储过程,元数据表、数据索 引表及元数据索引创建过程,数据请求处理过程三部分。
下面先对数据的存储过程进行详细说明。存储过程包括将在HBase上创建数据表 以及将原始数据按要求存储在HBase和HDFS上。如图1所示,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博康智能网络科技股份有限公司,未经博康智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610003635.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置