[发明专利]一种面向任意段数据的Top-k查询方法有效
申请号: | 201210257640.1 | 申请日: | 2012-07-24 |
公开(公告)号: | CN102799681A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 冯钧;唐志贤;邱男;印玉兰;徐黎明;盛震宇;任锋;朱祖会;付言章;王祥忠;史涯晴 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 任意 数据 top 查询 方法 | ||
1.一种面向任意段数据的Top-k查询方法,其特征在于,包括如下步骤:
步骤A:读取数据;
步骤B:分析数据特点,根据数据特点建立索引结构:若数据量较小,DG索引已经建好,则进入基于DG索引的任意段数据Top-k查询;若数据量较大,数据集对应DG索引上的结点较为稀疏时,则进入基于双层支配图DDG索引结构的Top-k查询;若当任意段确定比较困难时,则进入基于DG和GS的混合索引查询;所述结点较为稀疏是指需添加50%以上伪结点才能还原为DG索引中层连续的子图。
2.如权利要求1所述的面向任意段数据的Top-k查询方法,其特征在于,基于DG索引的任意段数据Top-k查询方法,包括如下步骤;
步骤B-1-1:添加伪结点以还原DG索引;
步骤B-1-2:进行基于DG的Traveler处理,
步骤B-1-2-1:扫描待查询的数据段的层号,将最小层minlayer的结点按照非递减顺序加入候选集RS,将RS中的最大值R加入结果集;
步骤B-1-2-2:判断结果集的大小与K的关系,若结果集的大小小于K,转入步骤B-1-2-3,否则转入步骤B-1-3;
步骤B-1-2-3:扫描R的儿子结点C,若C的所有父亲结点都在候选集中并且C未被访问过,将结点C加入候选集,并将候选集中的最大值结点加入结果集,否则进入结果集的结点不在查询范围内,将结果集的大小加1;
步骤B-1-3:删除结果集中的伪记录,得到最终的Top-k查询结果result。
3.如权利要求1所述的面向任意段数据的Top-k查询方法,其特征在于,基于双层支配图DDG索引结构的Top-k查询方法,包括如下步骤;
步骤B-2-1:对数据进行分段;
步骤B-2-2:对分段后的数据构建DDG索引结构;
步骤B-2-3:进行Top-k查询,具体包括如下步骤;
步骤B-2-3-1:计算查询段所在的DG索引;
步骤B-2-3-2:对查询所在的每个DG索引进行基本Traveler处理,形成结果集result;
步骤B-2-3-3:对查询所在的最底层DG索引进行基于DG的Traveler处理,并将结果写入result;
步骤B-2-3-4:对查询所在的最高层DG索引进行基于DG的Traveler处理,并将结果写入result,形成最终的Top-K查询结果。
4.如权利要求1所述的面向任意段数据的Top-k查询方法,其特征在于,基于DG和GS的混合索引查询方法,包括如下步骤;
步骤B-3-1:建立DGS支配网格结构,分为上下两层结构,上层为DG索引结构,适合于全局Top-k查询,而对于任意段数据Top-k查询,下层GS数据结构可以很好的保持隔代支配关系。
5.步骤B-3-2:根据适配网格的概念进行调整,对GS层的每一维数据都进行适配调整,使得数据在每一维度上面都达到均匀分布;
步骤B-3-3:根据DG索引对GS结构进行调整,使得GS网格结构中的同一层次内部结点保持一定的顺序,减少DG索引中同层次数据间的比较次数;
步骤B-3-4:基于DGS支配网格结构进行查询,具体包含如下步骤:
步骤B-3-4-1:计算数据段查询数据段所在网格的列号column和行号rower;
步骤B-3-4-2:依次处理网格中列号为column,行号为0到rower的结点,将上述格子中落入查询区间的数据结点按照非递减顺序加入候选集,并计算出满足条件的最大列号col;
步骤B-3-4-3:依次处理网格中行号为rower,行号为0到rower的结点,将上述格子中落入查询区间的数据结点按照非递减顺序加入候选集,并计算出满足条件的最大行号row;
步骤B-3-4-4:将行列号为i和j的网格结点的数据结点按非递减顺序加入候选集;其中row<i<rower,col<j<column;
步骤B-3-4-5:将候选集中的第一个结点加入结果集;
步骤B-3-4-6:判断结果集的大小len与K的关系,若len<K,进入步骤B-3-4-7,否则,进入步骤B-3-5,结束查询;
步骤B-3-4-7:判断结果集的结点数是否等于查询范围内的结点数目,若不相等,若相等,则将其后续结点加入候选集;
步骤B-3-4-8:则将候选集中第len个数据结点加入结果集,并将len加1,进入步骤B-3-4-6;
步骤B-3-5:返回结果集作为Top-k查询结果,结束查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210257640.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种狮头鹅饲养料的配制方法
- 下一篇:一种哺乳母牛食用的饲料
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置