[发明专利]一种应对倾斜数据流在线连接的处理方法有效

专利信息
申请号: 201710542086.4 申请日: 2017-07-05
公开(公告)号: CN107341240B 公开(公告)日: 2019-11-15
发明(设计)人: 孟小峰;王春凯 申请(专利权)人: 中国人民大学
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2453;G06F16/27
代理公司: 11245 北京纪凯知识产权代理有限公司 代理人: 徐宁;孙楠<国际申请>=<国际公布>=<
地址: 100872北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 应对 倾斜 数据流 在线 连接 处理 方法
【权利要求书】:

1.一种应对倾斜数据流在线连接的处理方法,其特征在于包括以下步骤:

1)数据流R和数据流S分别被随机划分成n个节点R1,R2,…,Rn和m个节点S1,S2,…,Sm,将各个节点分别存储在n个或m个处理单元中,且数据流R和数据流S分别位于二部图连接模型的两侧;数据流R和数据流S根据基于键值的哈希函数进行元组划分,数据流R或S的元组被分配至同一侧的不同节点进行存储,并同步将该元组发送至另一侧处理单元以完成在线连接的操作;

2)以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息,并搜集发送至预先构建的数据流控制器;若数据流控制器监控到某些处理单元超过负载均衡因子的临界值,则根据启发式规则动态制定迁移策略;

所述步骤2)中,设定的启发式规则如下:

2.1)规则H1:数据需要迁出的处理单元,如果迁出负载键值的元组后可直接满足非平衡因子阈值的要求,则直接进行迁出操作,并在路由表中记录迁移键值;

2.2)规则H2:数据需要迁出的处理单元,如果迁出某些键值的元组后仍不满足非平衡因子阈值的要求,则需要切分具有较高元组数的键值,并将切分后的部分数据进行迁出操作,并在路由表中记录迁移键值;

2.3)规则H3:数据需要迁入的处理单元,如果存在键值在路由表中,则优先将该键值的元组合并至哈希函数映射的处理单元,并清空路由表中的记录;

根据启发式规则,设定迁出元组和迁入元组的基本算法,迁出元组的基本算法为:

首先,判断迁出集合中迁出元组的键值范围,并确定待迁入元组的处理单元;

然后,针对各个迁出键值按照启发式规则H1和规则H2完成数据迁出,并更新路由表;

最后,确定迁移计划;

迁入元组的基本算法为:

首先,判断迁入集合中迁入元组的键值范围,并确定待迁出元组的处理单元;

然后,针对各个迁入键值按照启发式规则H3完成数据迁入,并更新路由表;

最后,确定迁移计划;

动态制定迁移策略是根据不同迁移类型定义三种代价:

(1)网络代价Cnetwork:数据分裂的情况下,相同键值的元组分布于不同的处理单元,在连接操作时由于复制数据带来的代价;

(2)迁移代价Cmigration:元组从某一处理单元迁移到其他处理单元的代价;

(3)路由代价Crouting:数据迁移后,为记录键值和处理单元的映射关系而维护迁移路由的代价;

3)在数据迁移之前,将新产生的数据流暂存在高吞吐量的分布式发布订阅消息系统中,暂缓新数据的连接操作;此时,按照迁移策略进行数据流和连接状态信息的迁移,并同步更新路由表;

4)继续发送Kafka中暂存的和新到来的数据,完成后续的在线连接操作。

2.如权利要求1所述的一种应对倾斜数据流在线连接的处理方法,其特征在于:所述步骤2)中,在时刻t,单侧的数据迁移采用ISM算法,其过程如下:

首先,统计时刻t每个处理单元的负载Lt(pu),并计算出平均负载;

然后,对于需要迁出数据的处理单元,调用迁出元组算法;

最后,对于需要迁入数据的处理单元,调用迁入元组算法。

3.如权利要求1所述的一种应对倾斜数据流在线连接的处理方法,其特征在于:所述步骤2)中,针对两侧节点逻辑迁移采用S2SM算法,其过程如下:

首先,统计每个处理单元的负载Lt(pu),并分别统计各侧和整个集群的平均负载Ltm,Ltn和Lt;其中,Ltm表示t时刻具有m个处理单元侧的平均负载,Ltn表示t时刻具有n个处理单元侧的平均负载,Lt表示t时刻整个集群的平均负载;

然后,根据临界值判定迁出元组的一侧和迁入元组的一侧;

最后,针对迁出侧,判断需要迁出的处理单元并调用迁出元组算法,针对迁入侧,判断需要迁入的处理单元并调用迁入元组算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710542086.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top