[发明专利]一种大规模流式集合数据的分布式处理方法有效
申请号: | 201710087603.3 | 申请日: | 2017-02-17 |
公开(公告)号: | CN106990913B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 王建民;龙明盛;王珏;黄向东 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大规模流式集合数据的分布式处理方法,属于计算机数据处理技术领域。首先基于分布式消息系统记录流式集合数据的完备状态,如果流式集合数据完备则消息系统生成对应的消息,分布式计算系统从分布式消息系统中提取流式集合数据的状态消息,将获取的流式集合数据存储到分布式存储系统,根据具体的处理算法和业务逻辑进行分布式处理和计算,并将处理结果存储到分布式存储系统中,完成对流式集合数据的处理。本发明方法可以有效的控制流式集合数据的处理流程,并利用集合数据的批量式计算提高系统的资源利用率。本方法可以快速、有效地处理目前日益增长的流式集合数据,十分适用于工业物联网、气象信息网等典型的大数据应用场景。 | ||
搜索关键词: | 一种 大规模 集合 数据 分布式 处理 方法 | ||
【主权项】:
1.一种大规模流式集合数据的分布式处理方法,其特征在于该处理方法包括以下步骤:(1)监控系统从数据源接收集合数据,将接收的集合数据记为![]()
记当前分布式存储系统的写入队列长度为wcurrent,分布式存储系统的最大写入队列长度为wmax,对当前分布式存储系统的写入队列长度进行判断,若0<wcurrennt<wmax,则进入步骤(2);若wcurrent≥wmax,则监控系统将接收的集合数据写入监控系统的磁盘,并记写入磁盘的集合数据为sstore,继续接收集合数据,重复本步骤,若wcurrent=0,则访问磁盘上的sstore,并对磁盘上的sstore进行判断,若sstore存在,则进入步骤(2),若sstore不存在,则重复本步骤;(2)根据集合数据
中的头信息,所述头信息为集合数据
中的成员数n,监控系统对集合数据进行判断,记接收的集合数据
当前到达的成员数为scurrent,若scurrent=n,则监控系统将集合数据
存储到分布式存储系统中,进入步骤(3),若scurrent<n,则返回步骤(1);(3)监控系统将集合数据
中在分布式存储系统中的消息,所述消息为集合数据
在分布式存储系统中的表名与行、列位置,发送至分布式消息系统中,分布式消息系统将接收的消息写入分布式消息系统的消息队列Q中,记当前分布式消息系统队列中的所有消息为Icurrent,设定一个消息队列Q的长度阈值为Lmax,并记当前消息队列的长度为Lcurrent,根据消息队列Q的长度阈值Lmax,对消息队列Q的长度进行判断,若Lcurrent≥Lmax,则将Icurrent中的Lcurrent/2的消息存储到分布式消息系统的磁盘中,并记存储至磁盘中的消息为Istore,重复本步骤,若Lcurrent=0,则访问分布式消息系统的磁盘,并对磁盘上的消息进行判断,若磁盘上存在消息Istore,则将消息Istore写入消息队列Q中,重复本步骤,若磁盘上不存在消息Istore,则返回步骤(1),若Lmax>Lcurrent>0,则进行步骤(4);(4)监控系统访问分布式存储系统,对分布式存储系统的写入队列长度进行判断,若wcurrent<wmax,进入步骤(5),若wcurrent≥wmax,重复本步骤;(5)分布式计算系统从分布式消息系统队列中Q中获取消息,设定分布式计算系统最少处理的消息阈值为Lmin,获取消息的时间阈值为tmmax,记当前获取消息的等待时间为twait,对分布式消息系统中的消息队列Q进行判断,若分布式消息系统的消息队列Q中Lcurrent≥Lmin,且twait≤tmax,则分布式计算系统从分布式消息系统的消息队列Q中获取消息,进入步骤(6),若分布式消息系统的队列Q中Lcurrent<Lmin,或twait>tmax,则放弃本次获取的消息,返回上述步骤(2);(6)分布式计算系统根据获取的消息,从分布式存储系统中获取相应的集合数据,并对从分布式存储系统中获取的集合数据进行判断,若分布式存储系统中存在与获取的消息相对应的集合数据,则进行步骤(7),若分布式存储系统中不存在与获取的消息相对应的集合数据,则返回上述步骤(2);(7)分布式计算系统根据步骤(6)获得的集合数据,通过处理算法和业务逻辑对集合数据进行分布式的处理和计算,得到计算结果,并通知监控系统计算完成;(8)记分布式计算系统写入分布式存储系统的最大等待时间为savemax,当前等待时间为savecurrent,监控系统对分布式计算系统写入分布式存储系统的等待时间进行判断,若savecurrent≥savemax,则返回步骤(6),若savecurrent<savemax,则监控系统根据获取的消息,将分布式计算结果存储到分布式存储系统的相应位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710087603.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置