[发明专利]基于分布式数据的并发处理方法和系统有效
申请号: | 201210349311.X | 申请日: | 2012-09-19 |
公开(公告)号: | CN103677752B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 薛扣英;邓大付 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 何平,曾旻辉 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 数据 并发 处理 方法 系统 | ||
【技术领域】
本发明涉及数据处理技术领域,特别涉及一种基于分布式数据的并发处理方法和系统。
【背景技术】
随着信息与通讯技术的发展,海量数据时代已经到来。各个行业需要存储的数据量与日俱增,尤其是需要存储大量用户数据的行业,例如金融、电信、网络通信服务(电子邮件、即时通信)、网络社交服务(微博、论坛)等等。
海量数据一般被分布式存储于多台服务器中,存储海量数据的服务器可达几千台甚至上万台。这些服务器可位于一个或多个服务器集群,亦或者位于一个或多个数据处理中心。一些数据库的数据存储方式也为分布式存储方式,例如,xcube数据库。xcube为分布式的NoSQL数据库,它将大数据量的数据表划分为多个子表,分别将子表存储到多台服务器上,并将子表信息记录在路由表中。子表信息包括子表的开始行键值、结束行键值、子表的数据量和子表所在的服务器。子表的开始行键值、结束行键值分别表示子表的开始行和结束行的主键的键值。。子表中包含开始行键值在父数据表中对应的位置到结束行键值在父数据表中对应的位置的所有记录。
海量数据的快速处理是人们需要面对的问题。多线程、多任务分解的处理方式可对单机存储的数据进行并发处理,而如何协调服务器集群中的服务器对分布式海量数据进行并发处理,提高海量数据的处理速度是亟需解决的问题。
【发明内容】
基于此,有必要提供一种能快速并发处理分布式数据的基于分布式数据的并发处理方法。
一种基于分布式数据的并发处理方法,包括以下步骤:
控制端获取提交的作业对应的数据块信息;
任务处理端向所述控制端发送任务处理请求;
所述控制端查找与所述任务处理端分布于同一服务器且还未分配的数据块,将查找到的数据块分配给所述任务处理端;
若未查找到与所述任务处理端分布于同一服务器且还未分配的数据块,则所述控制端统计正在被任务处理端处理的数据块最少的服务器,将该服务器上未分配的数据块分配给所述任务处理端;
所述任务处理端按照预设流程处理所述控制端分配的数据块。
基于此,还有必要提供一种能并发处理分布式数据的基于分布式数据的并发处理系统。
一种基于分布式数据的并发处理系统,包括控制端和多个任务处理端,所述控制端包括初始化模块、任务分配模块,其中:
所述初始化模块用于获取提交的作业对应的数据块信息;
所述任务处理端用于向所述控制端发送任务处理请求;
所述任务分配模块用于查找与所述任务处理端分布于同一服务器且还未分配的数据块,将查找到的数据块分配给所述任务处理端;
所述任务分配模块还用于若未查找到与所述任务处理端分布于同一服务器且还未分配的数据块,则统计正在被任务处理端处理的数据块最少的服务器,将该服务器上未分配的数据块分配给所述任务处理端;
所述任务处理端还用于按照预设流程处理所述控制端分配的数据块。
上述基于分布式数据的并发处理方法和系统,控制端可将分布式存储的数据块分别分配给不同的任务处理端进行处理,达到并发处理分布式数据的目的。而且,上述方法和系统中,控制端将数据块优先分配给与数据块分布于同一服务器的任务处理端进行处理,任务处理端优先处理本机存储的数据块,可提高数据块的处理速度,从而提高并发处理的整体速度。另外,当不存在还未分配的与任务处理端分布于同一服务器的数据块时,将正在被处理的数据块最少的服务器上的未分配的数据块分配给任务处理端,可提高任务处理端处理数据块的速度。因为存储数据块的服务器上被任务处理端处理的数据块数量少,说明与服务器交互的任务处理端数量少,服务器较为空闲,处理较为空闲的服务器上的数据块,服务器的响应速度也快,处理数据块的速度就快,从而可提高并发处理的整体速度。
【附图说明】
图1为一个实施例中的基于分布式数据的并发处理方法的流程示意图;
图2为一个实施例中控制端和任务处理端的部署示意图;
图3为另一实施例中的基于分布式数据的并发处理方法的流程示意图;
图4为一个实施例中数据块处理中断恢复的流程示意图;
图5为一个应用场景中的基于分布式数据的并发处理方法的原理图;
图6为一个实施例中控制端与任务处理端建立通信的原理图;
图7为一个实施例中控制端分配任务的分配算法的流程图;
图8为一个实施例中基于分布式数据的并发处理方法包括的初始化步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210349311.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置