[发明专利]一种应对倾斜数据流在线连接的处理方法有效
申请号: | 201710542086.4 | 申请日: | 2017-07-05 |
公开(公告)号: | CN107341240B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 孟小峰;王春凯 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2453;G06F16/27 |
代理公司: | 11245 北京纪凯知识产权代理有限公司 | 代理人: | 徐宁;孙楠<国际申请>=<国际公布>=< |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种应对倾斜数据流在线连接的处理方法,其步骤:数据流R和数据流S根据基于键值的哈希函数进行元组划分,各元组被分配至同一侧的不同节点进行存储,并同步将元组发送至另一侧处理单元以完成在线连接的操作;以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息,并搜集发送至预先构建的数据流控制器;若数据流控制器监控到某些处理单元超过负载均衡因子的临界值,则根据启发式规则动态制定迁移策略;在数据迁移之前,将新产生的数据流暂存在Kafka中,暂缓新数据的连接操作;此时,按照迁移策略进行数据流和连接状态信息的迁移,并同步更新路由表;继续发送Kafka中暂存的和新到来的数据,完成后续的在线连接操作。 | ||
搜索关键词: | 一种 应对 倾斜 数据流 在线 连接 处理 方法 | ||
【主权项】:
1.一种应对倾斜数据流在线连接的处理方法,其特征在于包括以下步骤:/n1)数据流R和数据流S分别被随机划分成n个节点R1,R2,…,Rn和m个节点S1,S2,…,Sm,将各个节点分别存储在n个或m个处理单元中,且数据流R和数据流S分别位于二部图连接模型的两侧;数据流R和数据流S根据基于键值的哈希函数进行元组划分,数据流R或S的元组被分配至同一侧的不同节点进行存储,并同步将该元组发送至另一侧处理单元以完成在线连接的操作;/n2)以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息,并搜集发送至预先构建的数据流控制器;若数据流控制器监控到某些处理单元超过负载均衡因子的临界值,则根据启发式规则动态制定迁移策略;/n所述步骤2)中,设定的启发式规则如下:/n2.1)规则H1:数据需要迁出的处理单元,如果迁出负载键值的元组后可直接满足非平衡因子阈值的要求,则直接进行迁出操作,并在路由表中记录迁移键值;/n2.2)规则H2:数据需要迁出的处理单元,如果迁出某些键值的元组后仍不满足非平衡因子阈值的要求,则需要切分具有较高元组数的键值,并将切分后的部分数据进行迁出操作,并在路由表中记录迁移键值;/n2.3)规则H3:数据需要迁入的处理单元,如果存在键值在路由表中,则优先将该键值的元组合并至哈希函数映射的处理单元,并清空路由表中的记录;/n根据启发式规则,设定迁出元组和迁入元组的基本算法,迁出元组的基本算法为:/n首先,判断迁出集合中迁出元组的键值范围,并确定待迁入元组的处理单元;/n然后,针对各个迁出键值按照启发式规则H1和规则H2完成数据迁出,并更新路由表;/n最后,确定迁移计划;/n迁入元组的基本算法为:/n首先,判断迁入集合中迁入元组的键值范围,并确定待迁出元组的处理单元;/n然后,针对各个迁入键值按照启发式规则H3完成数据迁入,并更新路由表;/n最后,确定迁移计划;/n动态制定迁移策略是根据不同迁移类型定义三种代价:/n(1)网络代价Cnetwork:数据分裂的情况下,相同键值的元组分布于不同的处理单元,在连接操作时由于复制数据带来的代价;/n(2)迁移代价Cmigration:元组从某一处理单元迁移到其他处理单元的代价;/n(3)路由代价Crouting:数据迁移后,为记录键值和处理单元的映射关系而维护迁移路由的代价;/n3)在数据迁移之前,将新产生的数据流暂存在高吞吐量的分布式发布订阅消息系统中,暂缓新数据的连接操作;此时,按照迁移策略进行数据流和连接状态信息的迁移,并同步更新路由表;/n4)继续发送Kafka中暂存的和新到来的数据,完成后续的在线连接操作。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710542086.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种集群数据分析方法及装置
- 下一篇:一种基于云计算的风电大数据分析系统