[发明专利]一种海量时序数据的存储方法有效

专利信息
申请号: 201310659810.3 申请日: 2013-12-09
公开(公告)号: CN103605805B 公开(公告)日: 2016-10-26
发明(设计)人: 朱寅;李勇;徐化岩;于立业;黄霜梅;余志刚;赵博;贾天云;梁青艳;王丽娜 申请(专利权)人: 冶金自动化研究设计院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京华谊知识产权代理有限公司 11207 代理人: 刘月娥
地址: 100071 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 时序 数据 存储 方法
【说明书】:

技术领域

本发明属于数据管理技术领域,特别涉及一种海量时序数据的存储方法。

背景技术

时序数据是一种具有时间属性和值属性的数据。时序数据的时间属性也称为该时序数据的时间戳。以流程工业为例,包括化工、冶金、建筑、电力等等,存在着海量的时序数据。这些时序数据具体有:仪表的计量数据,生产计划数据,成本核算数据等。对于大型流程工业企业,一般有几十个分厂或车间,有几十万点级的仪表计量,一年产生的时序数据的规模在TB级。面对如此大规模的数据,许多企业在建设信息系统时采用分而治之的策略:每个分厂或车间拥有自己的数据存储系统,而企业层面存储的数据主要是汇总后的数据。

在工业化与信息化深入融合的今天,许多企业要求进一步提高信息化水平,要求建立企业级的数据平台,即实现对企业各车间所有计量数据等时序数据的统一集中管理,并基于此解决当前车间级多个数据存储系统造成的数据孤岛、数出多源等问题,实现更好的生产管控。企业级的数据平台需要一个企业级数据存储系统。该存储系统需要具有良好地弹性可扩展能力,以支持日渐增大的数据存储规模,且具有快速访问性能,以满足数据报警、实时查询、曲线查看等实时应用需求。

当前,在流程工业面临着海量数据时序存储管理的困境时,互联网公司也在面临着海量数据管理的难题。以Hadoop、HBase等为代表的大数据技术为海量数据管理提供了一种解决方案,并为当前淘宝、百度、搜狐等许多互联网公司采用。Hadoop提供了一种可靠、可伸缩的分布式文件系统,HBase是一种高性能、面向列存储的分布式数据存储系统。在专利《一种基于Hadoop+Hbase的农业时序数据组织方法》(专利申请号:201210107915.3)中,采用Hadoop和HBase技术来存储管理具有时间顺序的农业经济技术数据。

发明内容

本发明的目的是提供一种海量时序数据存储方法,以便建立具有海量时序数据存储能力以及实时访问能力的企业级数据存储系统。该方法采用Hadoop和HBase作为底层存储支撑技术,利用它们的高扩展性以支持海量时序数据高性能存储管理,通过设计精简的HBase主键以及设计段存储进一步提升时序数据的读、写速度。其中,段存储定义为把同一数据点在某一时间的时序数据存储到一起。

本发明包括下列工艺步骤:

(1)采用HBase集群来直接管理企业的时序数据,由HBase写数据到Hadoop分布式文件系统,最终由Hadoop归档数据到磁盘;外部用户通过访问HBase来读、写、删除时序数据。

(2)企业的每个需要存储的时序数据点均具有唯一Id,通过数据点Id可定位具体的数据点并获取数据点名称等信息,其中,Id为大于或等于0的长整型数据,这使得数据存储系统可以支持万亿级的数据点管理。

(3)数据增加和数据修改均是数据写的一种特殊形式,在HBase中均通过Put操作完成,因此,在本发明中,把数据增加和数据修改均统一到数据写入操作。

在数据写入时,每个数据点的一条或多条时序记录成为HBase数据表的一条行记录。行记录包括行键(rowkey)和值部分。HBase数据表通过行键区分行记录。合理的行键,可以起到数据索引作用,促成数据的快速检索。另外,对于海量数据,行键需要被存储上亿次,因此,行键也需要尽可能的短。为此,行键设计为比特串,具体为:数据点Id.toBytes+时间戳.toBytes,其中数据点Id在前,时间戳在后,它们一前一后的目的是为了把同一数据点的数据聚在一起,使得可以方便查询某一数据点在某一时段的数据。Id为长整型,最多占用8字节,且可以根据数据点Id的值大小来自动选取最短长度的比特流,例如小于256的Id只需用1个字节。时间戳精确到毫秒,也采用长整型表示,占用8个字节。因此,行键最多占用16字节。

(4)具体哪个数据点的时序数据写入到哪张HBase数据表中,由平衡存储机制来控制。通过平衡存储,实现在数据访问时把网络I/O和磁盘I/O分布到集群中多个机器上,从而提高总的网络吞吐量和磁盘吞吐量。通过为每个数据点定义一个启发知识来实现平衡存储。在读、写某一数据点的数据时,可根据数据点的启发知识确定其HBase数据表。

(5)按照是否周期性的有数据,把时序数据点分为两类:周期性的,即数据点每隔指定时间就有一条时序数据;无周期的,即该数据点数据流的时间戳是没有周期性规律的。

按照周期数据点的周期大小,把周期性数据点分为小周期数据点和大周期数据点;其中,用于分类的周期阈值通过配置设定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于冶金自动化研究设计院,未经冶金自动化研究设计院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310659810.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top