[发明专利]一种适用于截面访问模式的电网海量时序数据存取方法在审
申请号: | 201410567859.0 | 申请日: | 2014-10-22 |
公开(公告)号: | CN104331432A | 公开(公告)日: | 2015-02-04 |
发明(设计)人: | 王远;包建国;袁军;刘琛;吴善新 | 申请(专利权)人: | 江苏瑞中数据股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 截面 访问 模式 电网 海量 时序 数据 存取 方法 | ||
技术领域
本发明涉及一种数据存取方法,属于海量数据处理、新型数据库技术领域,特别适用于智能电网领域中海量时序数据实时处理的场景。
背景技术
随着智能电网的不断发展,数据处理规模日益海量,已经出现了数千万乃至上亿数据采集规模的应用需求。以电力系统为例,一方面是测点规模越来越大,预计将达到千万级甚至亿级以上;另一方面是历史时序数据量规模越来越大,预计将达到PB字节以上。海量信息存储的方法很多,Oracle和EMC提供了存储系统及硬件,比较经典的是RAC(Real Application Cluster),RAC已经在工业和信息界得到广泛应用。然而这些数据库都是基于关系和对象模型的,对复杂数据存储有较好的表现,但是存储代价以及系统消耗比较大。电网时序数据类型单一,是按时间分布的单列数据,而分布式列式数据库技术在处理电网时序数据这种单列类型数据上比关系数据库有更好的效率,能够处理大量的并发数据操作的同时满足电网时序数据实时性要求。因此引入分布式列式数据库技术是当前解决电网海量时序数据实时处理的有效方法。
构建电网时序数据的分布式列式数据库系统的设计关键在于模式设计,模式设计的好坏直接影响该系统的插入与查询性能。模式设计的出发点是访问模式,根据电网时序数据特征,对其访问模式可归纳为按时间序列方式查询与按时间截面方式查询两种。合理的模式设计应该做到不影响写入性能的同时兼顾时间序列方式与时间截面方式这两种查询性能。对于电网时序数据信息存储,通常设计上仅仅考虑到时间序列数据在物理磁盘上位置相邻,这样虽然保证了按时间序列方式查询的效率,但是并不能解决时间截面查询场景性能问题。经初步检索,暂未发现有解决上述问题的相关专利。
发明内容
为了解决上述问题,实现在不影响写入性能的情况下同时兼顾时间序列查询及时间截面查询场景下的查询效率,本发明提供了一种适用于截面访问模式的电网海量时序数据存取方法,采用如下技术方案:
根据电网时序数据特征,将一条时序数据记录格式表示为:<metric><timestamp><value><tagk1=tagv1[tagk2=tagv2…tagkN=tagvN]>
其中各项代表的含义:
Metric(量测项,比如温度,电压等);
Timestamp(时间戳,比如UNIX时间戳);
Value(量测值,比如64位整数或双精度浮点值);
Tags(一组标签,用于标识这个数据记录的一组标记,每个标签分别由标签键(tagk)与标签值(tagv)组成,对于每一个电网时序数据记录,都会有一个标签键为device,该标签键用来表示电网设备名称,比如device=myammeter,表示该电网设备为某电流表)。
据此,在系统中建立三张表,分别为Uid表、Time-series时间序列数据表、Time-point时间截面数据表,其模式设计(包括行键、列族以及列限定符设计)如下:
Uid表
该表是time-series与time-point表的辅助表,任一量测项metric以及标签tag在该表中有自己唯一的ID,即UID。Uid表用于管理UID,使用固定4个字节宽,作为时间序列数据表以及截面数据表的外键联系使用。
注册一个新UID会在该表里添加两行,一行是从Name映射到UID,另一行从UID映射到Name。这里的Name可以是某量测项(metric)名称,也可以是某标签键(tagk)或者是某标签值(tagv)。
该表的意义在于将字符串类型的测量项名称以及标签键值名称都统一映射成固定的4个字节数组中,这样一定程度上可以节省存储空间,另一方面便于对查询数据进行解析。
Time-series时间序列数据表
该表存储时间序列数据,用来支持按时间序列方式查询请求,比如:按照日期范围和标签进行过滤的数据查询。其行键布局包含4字节的量测项UID、4字节的高序时间戳和各4字节的标签名ID和标签值ID,row key格式为:<metric_uid><timestamp_high><tagk1_uid><tagv1_uid>[…<tagkN_uid><tagvN_ui d>],列族名设为t,列限定符由时间戳低序位和掩码组成,掩码用于表示量测值数据类型及其存储占用字节个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司,未经江苏瑞中数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410567859.0/2.html,转载请声明来源钻瓜专利网。