[发明专利]一种应对倾斜数据流在线连接的处理方法有效
申请号: | 201710542086.4 | 申请日: | 2017-07-05 |
公开(公告)号: | CN107341240B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 孟小峰;王春凯 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2453;G06F16/27 |
代理公司: | 11245 北京纪凯知识产权代理有限公司 | 代理人: | 徐宁;孙楠<国际申请>=<国际公布>=< |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应对 倾斜 数据流 在线 连接 处理 方法 | ||
本发明涉及一种应对倾斜数据流在线连接的处理方法,其步骤:数据流R和数据流S根据基于键值的哈希函数进行元组划分,各元组被分配至同一侧的不同节点进行存储,并同步将元组发送至另一侧处理单元以完成在线连接的操作;以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息,并搜集发送至预先构建的数据流控制器;若数据流控制器监控到某些处理单元超过负载均衡因子的临界值,则根据启发式规则动态制定迁移策略;在数据迁移之前,将新产生的数据流暂存在Kafka中,暂缓新数据的连接操作;此时,按照迁移策略进行数据流和连接状态信息的迁移,并同步更新路由表;继续发送Kafka中暂存的和新到来的数据,完成后续的在线连接操作。
技术领域
本发明涉及一种数据处理方法,特别是关于一种应对倾斜数据流在线连接的 处理方法。
背景技术
一般基于完全二部图的连接模型可支持分布式数据流的连接操作。该模型具 有内存高效、易伸缩和可扩展等特性。然而,该模型无法动态分配查询节点,并 需要人工干预数据分组的参数设置。尤其是针对倾斜数据的全历史连接查询,模 型效率更低。
发明内容
针对上述问题,本发明的目的是提供一种应对倾斜数据流在线连接的处理方 法,该方法能有效应对倾斜数据的连接操作,并进一步提升分布式数据流管理系 统的吞吐率,降低云环境中的计算成本。
为实现上述目的,本发明采取以下技术方案:一种应对倾斜数据流在线连接 的处理方法,其特征在于包括以下步骤:1)数据流R和数据流S分别被随机划分 成n个节点R1,R2,…,Rn和m个节点S1,S2,…,Sm,将各个节点分别存储在 n个或m个处理单元中,且数据流R和数据流S分别位于二部图连接模型的两侧; 数据流R和数据流S根据基于键值的哈希函数进行元组划分,数据流R或S的元 组被分配至同一侧的不同节点进行存储,并同步将该元组发送至另一侧处理单元 以完成在线连接的操作;2)以预先设定时间间隔周期性地监控二部图连接模型 每侧节点的负载统计信息,并搜集发送至预先构建的数据流控制器;若数据流控 制器监控到某些处理单元超过负载均衡因子的临界值,则根据启发式规则动态制定迁移策略;3)在数据迁移之前,将新产生的数据流暂存在高吞吐量的分布式发 布订阅消息系统中,暂缓新数据的连接操作;此时,按照迁移策略进行数据流和 连接状态信息的迁移,并同步更新路由表;4)继续发送Kafka中暂存的和新到来 的数据,完成后续的在线连接操作。
所述步骤2)中,设定的启发式规则如下:2.1)规则H1:数据需要迁出的处 理单元,如果迁出负载键值的元组后可直接满足非平衡因子阈值的要求,则直接 进行迁出操作,并在路由表中记录迁移键值;2.2)规则H2:数据需要迁出的处理 单元,如果迁出某些键值的元组后仍不满足非平衡因子阈值的要求,则需要切分 具有较高元组数的键值,并将切分后的部分数据进行迁出操作,并在路由表中记 录迁移键值;2.3)规则H3:数据需要迁入的处理单元,如果存在键值在路由表中, 则优先将该键值的元组合并至哈希函数映射的处理单元,并清空路由表中的记录。
根据启发式规则,设定迁出元组和迁入元组的基本算法,迁出元组的基本算 法为:首先,判断迁出集合中迁出元组的键值范围,并确定待迁入元组的处理单 元;然后,针对各个迁出键值按照启发式规则H1和规则H2完成数据迁出,并更 新路由表;最后,确定迁移计划;迁入元组的基本算法为:首先,判断迁入集合 中迁入元组的键值范围,并确定待迁出元组的处理单元;然后,针对各个迁入键 值按照启发式规则H3完成数据迁入,并更新路由表;最后,确定迁移计划。
所述步骤2)中,动态制定迁移策略是根据不同迁移类型定义三种代价:(1)网 络代价Cnetwork:数据分裂的情况下,相同键值的元组分布于不同的处理单元, 在连接操作时由于复制数据带来的代价;(2)迁移代价Cmigration:元组从某一处 理单元迁移到其他处理单元的代价;(3)路由代价Crouting:数据迁移后,为记录 键值和处理单元的映射关系而维护迁移路由的代价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710542086.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集群数据分析方法及装置
- 下一篇:一种基于云计算的风电大数据分析系统