[发明专利]一种超大规模数据的时序检索索引系统及方法有效
| 申请号: | 201611160429.2 | 申请日: | 2016-12-15 |
| 公开(公告)号: | CN106777111B | 公开(公告)日: | 2020-08-11 |
| 发明(设计)人: | 赵淦森;李振宇;王欣明;张海明;庄序填;唐华;李卓越;林成创;刘创辉;马朝辉;廖智锐 | 申请(专利权)人: | 华南师范大学 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
| 地址: | 510631 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 超大规模 数据 时序 检索 索引 系统 方法 | ||
本发明公开了一种超大规模数据的时序检索索引系统及方法,该系统包括垂直层级索引模块,包括有多层索引,每层索引均包括哈希函数和多个数据集,所述数据集中数据通过下一层级索引哈希函数映射至下一层级数据集中;还包括有对应的时间轴索引模块,用于建立事件列表和时间列表。本发明通过层级索引模块将原始的大数据集经过层层的哈希映射,最终会被分配到若干个相对较小的数据集中去,使每一个小数据集上可以独立执行查询处理、数据加载、存储优化等操作,从而结合时间轴索引模块避免了时序检索操作的过程中进行全表扫描操作的风险,极大地提高了时序检索的速度。本发明作为一种超大规模数据的时序检索索引系统及方法可广泛应用于数据处理领域。
技术领域
本发明涉及数据处理领域,尤其是一种超大规模数据的时序检索索引系统及方法。
背景技术
时序数据库的时序数据管理领域也涉及了对数据库中的数据的时序检索操作。时序数据库内部也是通过对时序数据建立数据索引从而高效地实现各种时序数据管理的功能。总的来说,时序数据库中的这些数据索引主要分成两大类,一类是基于B+树结构的索引,另外一类是基于R树的结构的索引。比如Time Index,Snapshot Index,CheckpointIndex,Archivable Time Index,Overlapping B+树等等几类比较具体的索引结构。
Timeline Index是由Martin Kaufman等人在2013年提出的一种索引结构,它主要服务于时序数据库里的时序数据管理,能够极大地提升时序数据库各种时序检索的效率。
如图1所示为时序数据库中数据格式,参数Start和End表示数据记录的有效时间的起止点,参数Name和Balance分别表示姓名和账目。
如图2所示,Timeline Index主要由图中左边的Version Map和图中右边的EventList两个部分组成。图1中的每条数据记录可以拆分为两个事件:在Start时刻记录被激活;在End时刻记录被撤销。Event List记录了所有的被激活和被撤销的事件(1为激活,0为撤销)。而Version Map记录了所有事件发生的顺序。通过对这两个列表的操作,TimelineIndex能够实现高效的时序检索性能。
对于每张数据表,都需要建立一个对应的Timeline Index。Timeline index比原始的数据表要小很多,尤其是当原始数据表具有很多列属性的时候。
上述提到了各种时序数据库的时序索引都能够有效地解决时序数据库中的各种时序数据管理的问题,但是,它们有个共同的特点是它们都是为传统的关系型时序数据库而设计的,它们所面向处理的是常规规模的数据量,通常为几百万级别的数据,它们无法应对当前大数据时代10亿以上级别的超大规模数据所带来的技术挑战。当待处理的数据集的数据总量越来越大,上述的时序数据库的时序索引就会出现严重的性能和效率问题,导致无法在可接受的时间内返回有效的时序检索的结果。
术语解释
标准化时序数据:R=(ID,A,T,(S,E))是一条标准化时序数据;其中ID表示记录R在数据表中的行号,A表示时序数据本身的静态属性,T表示时序数据的时间点属性,(S,E)表示时序数据的真实有效时间范围[Start,End)。
静态属性:静态属性是指在时序数据中所有与时间无关的属性。
时序检索:在原始标准化时序数据集中检索满足特定时间约束的数据记录。时序检索主要包含三类:基于时间点条件的检索操作,基于时间段包含关系条件的检索操作和基于时间段相交关系条件的检索操作。
基于时间点条件的检索操作:给定具体的时间点M,找出全集U中的最大子集合D,使得D满足,且
基于时间段包含关系条件的检索操作:给定具体的时间范围[Start,End),找出全集U中的最大子集合D,使得D满足,且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611160429.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





