[发明专利]超大型数据存储方法、分布式数据库系统及其检索方法在审
申请号: | 201310376425.8 | 申请日: | 2013-08-26 |
公开(公告)号: | CN103473276A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 林斌;李星南;杨德强;余锦业;包达志;姜绍艳;李溢杰;李伟坚;蒋康明 | 申请(专利权)人: | 广东电网公司电力调度控制中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹;曾旻辉 |
地址: | 510699 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 超大型 数据 存储 方法 分布式 数据库 系统 及其 检索 | ||
技术领域
本发明涉及数据库技术领域,特别是涉及一种超大型数据存储方法,一种分布式数据库系统,以及一种分布式数据库系统的检索方法。
背景技术
21世纪是一个数据爆炸的时代,特别是对数据定义的逐步对象化、精细化,越来越多的结构化数据会随之产生。特别是当前通信运营商、互联网行业目前对用户行为分析关注度越来越高,伴随着需要存储与查询分析的数据量也越来越大。
例如,某省级电信运营商上网清单数据量每天都是在10多亿条记录以上,单表一天数据量达300G以上,而类似的清单数据类型达几十种,由于一般需要保留三个月到半年,因此所需要的存储资源一般可以达到PB级。
如此超大数据的存储如果采用传统的关系型数据库来存储,会对主机的性能、存储资源都会有很高的要求,需要有巨大的投资。目前业界比较流行的大数据存储包括hadoop、mongodb、mysql等分布式数据存储与统计技术,但这些技术面对如此大的数据存储与应用,仍然需要较大的硬件开销。
大数据存储目前业界一般有二种模式,一种是share nothing架构,另一种是share everything架构,其中share nothing架构主要是数据分散存储,各节点间不进行数据共享访问,share everything架构是数据存储在共享磁阵中,各分布式节点均可以共享访问。
其中由于share everything架构需要共享磁阵,导致对磁阵的带宽总线以及网络构造极高,在数据量增长到PB级别时,基本没有实现优势。而share nothing 由于是分布式的数据存储架构,因此节点可以灵活扩展,少到10台左右的集群,多到几万台的集群,均可以满足数据量不断增加的应用需要。
目前业界常用的hadoop、mongodb、mysql等分布式架构均是采用share nothing来进行的实现,虽然从数据存储与查询角度都可以满足超大型数据的应用需求,但其对存储资源的消耗都是几倍于原始数据的大小,因此目前迫切需要一种能消耗较少的硬件资源的数据存储方案。
发明内容
基于此,本发明提供一种超大型数据存储方法,一种分布式数据库系统,以及一种分布式数据库系统的检索方法,能解决超大型结构化数据的存储难题,存储资源消耗小,数据的检索速度快。
一种超大型数据存储方法,包括如下步骤:
将待存储的每一条数据按预设的分割属性进行分割,得到每条数据的活跃数据和死数据;
将所述死数据存储后压缩;
生成所述活跃数据的数据库表,将所述数据库表按预设的分发策略分类存储在不同的数据库。
一种分布式数据库系统,包括多个数据库,每个所述数据库中存储有不同类别的多个数据库表,所述数据库还以压缩文件包的形式存储有多条死数据;所述数据库表存储多条活跃数据,每条所述活跃数据附加有与对应的死数据的映射;其中,所述死数据和所述活跃数据为根据预设的分割属性从待存储的每一条数据分割而得到。
一种分布式数据库系统的检索方法,包括上述分布式数据库系统,检索方法包括如下步骤:
接收数据的检索请求;
若所述检索请求为活跃数据检索请求,则基于数据分发策略根据所述检索请求确定所述分布式数据库系统中需检索的数据库及其数据库表;将检索请求分发到各个所述需检索的数据库;接收各个数据库返回的检索结果后输出;
若所述检索请求为死数据检索请求,则通过对应的活跃数据中的映射,查找到死数据的压缩文件,读取压缩文件中的死数据后输出。
上述的超大型数据存储方法中,将数据按预设的分割属性进行分割,对其中的死数据存储后压缩,大大减少了存储资源的消耗;而其他的活跃数据则分类存储在不同的数据库;本发明的超大型数据存储方法能解决超大型数据的存储难题,占用空间较小,大幅提高了数据检索和统计的处理速度。
上述的分布式数据库系统中,包括多个数据库,数据库中存储两类数据,一种是不同类别的多个数据库表,对应存储多条业务数据;另一类是按预设的分割属性分割而得到的死数据,对其以压缩文件包的形式存储;通过死数据的压缩存储及活跃数据的分类存储;相对于其他的超大型数据库本发明的分布式数据库具有占用空间小、存储资源消耗小的优点;并且对于该数据库的数据检索和统计的处理速度非常快。
附图说明
图1为本发明超大型数据存储方法在一实施例中的流程示意图。
图2为本发明分布式数据库系统的检索方法在一实施例中的流程示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网公司电力调度控制中心,未经广东电网公司电力调度控制中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310376425.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置