[发明专利]分布式数据接收方法、系统和用于分布式数据接收的装置有效
申请号: | 201710700585.1 | 申请日: | 2017-08-16 |
公开(公告)号: | CN109408219B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 王小刚;李亚峰;郭建 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 刘剑波 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据 接收 方法 系统 用于 装置 | ||
本发明公开了一种分布式数据接收方法、系统和用于分布式数据接收的装置,涉及大数据处理领域。分布式数据接收方法包括:获取单位时间内每个数据单位的数据量;根据每个数据单位的数据量占总数据量的比值,在第一打分区间中为每个数据单位分配具有相应比例的子区间;获取第二打分区间中每个数据接收节点对应的子区间;基于第一打分区间以及第二打分区间中的子区间的覆盖范围,确定每个数据单位的数据源节点所对应的数据接收节点;将每个数据源节点的数据发送给相应的数据接收节点。从而,能够使数据接收节点均匀地处理数据,避免单一数据接收节点的压力过大,提高了数据接收的效率。
技术领域
本发明涉及大数据处理领域,特别涉及一种分布式数据接收方法、系统和用于分布式数据接收的装置。
背景技术
对每天TB(Terabyte,太字节)级别甚至到PB(Petabyte,拍字节)级别的大量的数据进行分析、汇总和落地(即持久化存储数据)是一个非常值得挑战的工程。通常地,在对如此大的数据量进行比较复杂的分析时,需要使用实时处理能力较强、吞吐量较高的流式处理工具,例如可以使用中间件集群作为汇总落地与分发的管道。
在实施过程中,可以根据不同的目标路径归纳数据,以将数据保存到分布式文件系统集群的指定路径下。
以运营商将各个省份的数据进行落地为例,目前,在进行数据接收和落地时,主要采用以下两种方式。
第一种方式为,令不同的省份数据对应指定的数据接收节点。即,将每个省份的数据都发送到同一个数据接收节点。
这种方式会造成数据倾斜的后果,比如数据量较大的省份对应的数据接收节点压力太大,而数据量较小的省份对应的数据接收节点压力较小,从而会影响数据接收节点的处理性能。
第二种方式为,令所有数据随机发送到各个数据接收节点。
这种方式会加大网络负载。设数据源节点有2000个,数据接收节点有20个,则网络中很可能同时有2000*20=40000个TCP-IP链接,造成网络拥塞。并且,每个数据接收节点的连接压力也会增大,极大地降低了性能。
发明内容
本发明实施例所要解决的一个技术问题是:如何降低分布式数据接收节点的压力。
根据本发明实施例的第一个方面,提供一种分布式数据接收方法,包括:获取单位时间内每个数据单位的数据量,其中,每个数据单位具有一个或多个数据源节点;根据每个数据单位的数据量占总数据量的比值,在第一打分区间中为每个数据单位分配具有相应比例的子区间;获取第二打分区间中每个数据接收节点对应的子区间;基于第一打分区间中的子区间覆盖范围以及第二打分区间中的子区间的覆盖范围,确定每个数据单位的数据源节点所对应的数据接收节点;将每个数据源节点的数据发送给相应的数据接收节点。
在一个实施例中,基于第一打分区间中的子区间覆盖数值以及第二打分区间中的子区间的覆盖数值,确定数据单位的数据源节点所对应的数据接收节点包括:生成数据源节点对应的随机数,其中,随机数的数值在对应的数据源节点所属的数据单位对应的第一打分区间的子区间的覆盖范围内;确定随机数在第二打分区间中所属的子区间,将确定的子区间对应的数据接收节点确定为数据源节点所对应的数据接收节点;其中,第一打分区间和第二打分区间具有相同的起始点。
在一个实施例中,在数据源节点发送每个数据之前,在数据源节点所属的数据单位对应的第一打分区间中的子区间内生成随机数;将随机数在第二打分区间中所属的子区间对应的数据接收节点确定为数据源节点的数据所对应的数据接收节点。
在一个实施例中,根据每个数据接收节点的处理速率和/或负载,在第二打分区间中为每个数据单位分配具有相应比例的子区间。
在一个实施例中,分布式数据接收方法还包括:当某个数据接收节点发生故障时,重新为未发生故障的数据接收节点分配第二打分区间中的子区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710700585.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:资源调用方法和装置
- 下一篇:一种任务处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置