[发明专利]一种集群的数据处理方法及装置有效
申请号: | 201611193097.8 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108234566B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 李静;李炉阳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 蒋冬梅;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 数据处理 方法 装置 | ||
本文公开了一种集群的数据处理方法及装置;上述集群的数据处理方法,包括:获取第一预定时长内多个集群上运行的任务的属性信息;根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。
技术领域
本发明涉及网络通信领域,尤其涉及一种集群的数据处理方法及装置。
背景技术
随着大数据时代的到来,数据业务蓬勃发展,存储规模和计算规模以井喷模式快速增长。但是,分布式系统的集群所在的单机房物理机器容量都是有限制的,单机房物理机器的数量不可能无限增长,因此,出现了跨地域多机房多集群的格局。然而,多机房多集群之间互相通信、互相读取数据需要耗费巨大的网络带宽。
目前,在跨地域多机房场景下,当网络带宽遇到瓶颈时,网络运维人员一般会进行限流操作,或者是硬性增加网络带宽。然而,当进行限流操作时会导致集群的计算任务延迟,从而影响用户体验。另外,硬性增加网络带宽会导致增加成本。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供一种集群的数据处理方法及装置,能够减少任务延迟,优化集群的网络流量。
本申请实施例提供一种集群的数据处理方法,包括:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
其中,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群之后,所述数据处理方法还可以包括:
生成复制列表,所述复制列表用于记录所述待复制数据的位置信息、需要复制所述待复制数据的目标集群;
将所述复制列表写入元数据库,以便相关集群获取所述复制列表。
其中,所述数据处理方法还可以包括:
指示目标集群根据所述复制列表,复制所述待复制数据。
其中,所述获取第一预定时长内多个集群上运行的任务的属性信息,可以包括:周期性获取第一预定时长内多个集群上运行的任务的属性信息。
其中,每个任务的属性信息至少包括:运行所述任务的集群、所述任务所读取的数据所在的集群。
其中,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,可以包括:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
其中,所述筛选出符合预定条件的数据作为待复制数据,可以包括:
筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,所述第一参数值为在第二预定时长内运行所述任务的集群读取所述数据的次数;所述第二参数值为在第一预定时长内所述第一参数值满足第一条件的总次数或连续次数;所述第二预定时长小于所述第一预定时长;所述第一条件包括:所述第一参数值大于或等于第一阈值;所述第二条件包括:所述第二参数值大于或等于第二阈值。
本申请实施例还提供一种集群的数据处理装置,包括:
获取单元,用于获取第一预定时长内多个集群上运行的任务的属性信息;
处理单元,用于根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611193097.8/2.html,转载请声明来源钻瓜专利网。