[发明专利]一种用于大数据环境下可支持多格式特性的数据空间检索方法有效
申请号: | 201410125840.0 | 申请日: | 2014-03-31 |
公开(公告)号: | CN103902699B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 周连科;王洪滨;王念滨;祝官文 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数据 环境 支持 格式 特性 空间 检索 方法 | ||
技术领域
本发明涉及一种用于大数据环境下可支持多格式特性的数据空间检索方法。
背景技术
数据空间数据具有多样化特征,它包含结构化、半结构化和非结构化数据,如关系元祖、XML、Word文档、Email、视频、音频等数据,这种特征导致迫切需要一种支持多种类型的查询方式,因此其索引技术就显得尤为关键。一方面,与搜索引擎和传统数据集成技术不同的是,数据空间索引技术需索引多种类型数据,而不是为每种类型建立一种索引;另一方面,与传统搜索引擎、XML引擎、数据库查询不同的是,不再是侧重于某种类型数据的查询,而是灵活地支持多种不同程度结构的查询,如关键词查询、谓词查询、路径查询等。
随着互联网的飞速发展,数据信息呈现爆炸式增长,每年至少上亿TB的新数据产生,面对这种大数据环境,其索引效率的高低,直接决定数据空间数据查询的性能好坏,因此,数据空间数据的索引效率十分关键。目前数据空间索引技术主要有Hybrid-ATIL索引、图索引、全文索引+副本,尽管这些索引技术很好地索引了多种类型数据,但是它们难以解决大数据环境下的数据空间索引连接效率低下的问题。针对该问题,本发明利用多级索引思想,设计出了一种针对大数据环境下的数据空间高效索引技术,从而提高查询性能。
发明内容
本发明的目的在于提供一种支持多种查询方式及索引多格式数据,能够减少大量连接操作的、高效的用于大数据环境下可支持多格式特性的数据空间检索方法。
本发明的目的是这样实现的:
一种用于大数据环境下可支持多格式特性的数据空间检索方法,包括:
1)用户输入查询内容;
2)判断用户查询类型,如果为关键词查询为关键词,则执行步骤3);如果为谓词查询Q=(v,{ki}),v为属性,ki为关键词,则转到步骤5);如果为路径查询Q=k1/..../ki/...’/’表示层次路径,则转到步骤7);
3)采用前缀扫描方式读取所建立的多级索引,获取ki*,ki*表示以关键词ki开始索引项,开头对应的链表结果分别记为表示索引中第j个包含ki索引项所对应的文档列表,即posting;如果查询类型为关键词查询,则转到步骤4);如果查询类型为路径查询,则转到步骤7);
4)进行链表合并操作,即先对所有ki开头的索引项对应的posting进行并操作,对所有关键词ki并后的结果进行交操作,同时出现所有关键词的文档列表;
5)查询重写为{ki//v};
6)遍历步骤1)所建立的多级索引,获取ki//v对应的项,记为Lki//v表示索引项中ki//v对应posting,L表示在属性中同时出现多个关键词ki的所有文档列表;
7)将k1到kn逆序压入栈中;
8)首先弹出栈顶中两个元素,记为k1和k2;
9)读取步骤1)所建立的多级索引,获取k1的B-树索引和k2的H索引,分别记为关键词k1对应资源视图编号为元素构成的的B树索引和关键词k2对应的H索引;
10)根据索引链表右连接方案,连接和结果记为生成的临时B树,初始为空,即对中每个主键来说,如果在中能够发现,则把对应项C={ci}中所有元素插入到Btemp中;
11)如果栈不为空,则转到步骤12);否则,转到步骤14)中;
12)弹出栈顶元素ki,读取步骤1)所建立的多级索引,获取ki的H索引,记为按照步骤10)方法连接和Btemp,结果记为
13)转到步骤11);
14)遍历Btemp或者L,输出满足条件的所有元素。
步骤3)所建立的多级索引的构建过程包括下述步骤:
A、在大数据环境下对数据空间构建多级索引;所述构建内容包括采用扩展倒排索引的主索引的构建与采用B-树与二级索引相结合的辅助索引的构建;扩展倒排索引负责支持大数据的关键词查询、谓词查询;B-树索引和二级索引则负责支持大数据的路径查询;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410125840.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置