[发明专利]一种基于范围查询边界集的合并数据分片优化方法有效

专利信息
申请号: 201810194425.9 申请日: 2018-03-09
公开(公告)号: CN108416027B 公开(公告)日: 2021-07-20
发明(设计)人: 葛微;李先贤;王金艳 申请(专利权)人: 广西师范大学
主分类号: G06F16/2453 分类号: G06F16/2453
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 刘梅芳
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于范围查询边界集的自底向上合并数据分片优化方法,其特征是,包括如下步骤:1)建立范围查询负载下的数据访问概率模型;2)用范围查询边界集初始化分片方案P;3)计算相邻两个数据片合并带来的代价偏差Fc;4)遍历代价偏差数组,找出最小代价偏差,合并这两个相邻数据片;5)更新步骤4)合并影响的代价偏差数组中的两个代价偏差值,重新计算Fc;6)跳转到步骤4),循环执行数据片合并,直到达到数据最优分片数。这种方法地降低了数据的管理维护开销,得到了最优的数据查询代价,从而提高了查询效率。
搜索关键词: 一种 基于 范围 查询 边界 合并 数据 分片 优化 方法
【主权项】:
1.一种基于范围查询边界集的自底向上合并数据分片优化方法,其特征是,包括如下步骤:1)建立范围查询负载下的数据访问概率模型:定义数据集上范围查询的所有边界组成的集合叫做范围查询边界集,在基于记录的数据组织方式下,一条数据记录的查询累积概率=数据记录被查询负载访问的次数/总查询次数,在基于数据片的数据组织方式下,定义第k个数据片DSk的长度为lk,数据片DSk上的查询累积概率为Pk,数据片DSk查询累积概率Pk取值为DSk所含数据记录的查询累积概率的最大值,数据片DSk上的查询代价表示为:DSk上的查询代价=定位寻址代价+数据传输代价=磁盘每次定位寻址代价S×DSk的查询累积概率Pk+数据片的长度lk×每字节数据的传输代价×DSk的查询累积概率Pk,数据分片后,存在查询“误命中”的情况,即片内部分数据不是查询结果集,但会被访问的情况,带来了额外的传输开销,定义这部分额外的传输开销叫做代价偏差,用Fc表示;2)用范围查询边界集初始化分片方案P:假设范围查询边界集中有B个不同的元素,那么数据集被初始化成(B‑1)个数据片;3)计算相邻两个数据片合并带来的代价偏差Fc(DS1,DS2),Fc(DS2,DS3),…,Fc(DSi‑1,DSi),Fc(DSi,DSi+1),…,Fc(DSB‑2,DSB‑1);4)遍历代价偏差数组,找出最小代价偏差,合并这两个相邻数据片:假设Fc(DSi,DSi+1)是代价偏差中代价最小的,则合并数据片DSi和DSi+1,合并后数据片为:DS1,…,DSi,DSi+2,…,DSB‑1;5)更新步骤4)合并影响的代价偏差数组中的两个代价偏差值,重新计算Fc;6)跳转到步骤4),循环执行数据片合并,直到达到数据最优分片数:代价偏差Fc(DSi,DSi+1)的计算在常数时间内,即内完成,循环第一轮需要执行(B‑1)个代价偏差,以后每轮需要计算合并数据片相邻2个代价偏差,共需执行(B‑K)轮直到剩余的数据片个数为K,总的计算代价为(B‑1)+2(B‑K),其中B为范围查询边界集的基数,K是分片的数据片个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810194425.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top