[发明专利]支持海量数据分组统计的智能索引构建、查询及维护方法有效
申请号: | 201511001092.6 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105631003B | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 李斌斌;周游 | 申请(专利权)人: | 北京赛思信安技术股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100125 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。 | ||
搜索关键词: | 支持 海量 数据 分组 统计 智能 索引 构建 查询 维护 方法 | ||
【主权项】:
1.一种支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,通过如下四方面实现:第一步骤,建立智能索引的数据组织结构;智能索引的数据组织结构包括索引元数据和索引数据;索引元数据是创建索引的依据,包括分组列簇和统计列簇;分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式;统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式;分组字段类型和统计字段类型均包括整型、字符型和时间类型,分组方式包括区间、等值和哈希,统计方式包括聚合、平均值、最大值、最小值、方差和求和;索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分;分组数值区由字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及应用的位置ID,分组字段值和位置ID均使用有序链表存储;统计数值区根据位置ID分段按行存储,每个段按位置ID排序,使用有序链表存储;第二步骤,在写入数据时在内存中实时创建智能索引;根据索引元数据确定分组字段和统计字段,对每条原始记录在内存中计算,包括对分组字段按分组方式计算和对统计字段按统计方式计算,更新分组数值区链表和统计数值区链表,将索引数据持久化到磁盘;具体实现步骤为:步骤201:读取索引元数据,并初始化索引数据存储结构;步骤202:判断索引数据是否能持久化到磁盘上,如果要持久化到磁盘,则转到步骤206,否则转到步骤203;索引数据能持久化到磁盘上的判断标准为索引数据所对应的原始数据块已经被稳定写入磁盘;步骤203:读取下一条原始数据;步骤204:根据分组方式,计算每个分组字段的分组值,并更新到分组数值区链表中,并按分组字段值进行排序,保持链表有序;步骤205:根据统计方式,计算每个统计字段的统计值,并更新到统计数值区链表中,并按数值进行排序,保持链表有序,转到步骤202;步骤206:将统计数值区链表写入文件中,并按链表ID分段,每个段生成一个文件;步骤207:将分组数值区链表写入文件中,并按分组字段分成不同字典链表,每个字典生成一个文件;第三步骤,利用智能索引进行分组统计的操作;通过判定器判断本次统计是否能使用智能索引,当能使用时,通过执行器读取索引数据,通过汇聚器对分组值进行汇聚计算;利用智能索引进行分组统计的操作,实现过程为:输入需要进行查询的数据块和查询语法树,然后执行:步骤301:读取索引元数据;步骤302:解析查询语法树;步骤303:判断是否能使用智能索引,如果能执行步骤304,否则退出;能使用智能索引的标准是:本次查询中的分组字段必须包含在索引元数据中分组字段中,且分组类型一致;本次查询中的统计字段必须包含在索引元数据中的统计字段中,且统计类型一致;步骤304:将分组字段对应的字典文件一次读入到内存中;步骤305:依次遍历字典文件的分组字段值;步骤306:提取每个分组字段值对应的位置ID的链表;步骤307:根据位置ID链表,将对应的段文件读取到内存中;步骤308:对每个位置ID链表对应的统计值按统计列分别进行汇聚计算;步骤309:合并分组结果;第四步骤,实现对智能索引的删除操作;预设原始数据与索引数据物理存储规则,根据待删除的原始数据块存储路径,来构造索引数据存储路径,将建立的索引数据删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司,未经北京赛思信安技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511001092.6/,转载请声明来源钻瓜专利网。
- 上一篇:离线坐标校准和地图创建的方法及装置
- 下一篇:一种信息处理方法和服务器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置