[发明专利]一种大规模流式集合数据的分布式处理方法有效

专利信息
申请号: 201710087603.3 申请日: 2017-02-17
公开(公告)号: CN106990913B 公开(公告)日: 2019-07-26
发明(设计)人: 王建民;龙明盛;王珏;黄向东 申请(专利权)人: 清华大学
主分类号: G06F3/06 分类号: G06F3/06
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 罗文群
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种大规模流式集合数据的分布式处理方法,属于计算机数据处理技术领域。首先基于分布式消息系统记录流式集合数据的完备状态,如果流式集合数据完备则消息系统生成对应的消息,分布式计算系统从分布式消息系统中提取流式集合数据的状态消息,将获取的流式集合数据存储到分布式存储系统,根据具体的处理算法和业务逻辑进行分布式处理和计算,并将处理结果存储到分布式存储系统中,完成对流式集合数据的处理。本发明方法可以有效的控制流式集合数据的处理流程,并利用集合数据的批量式计算提高系统的资源利用率。本方法可以快速、有效地处理目前日益增长的流式集合数据,十分适用于工业物联网、气象信息网等典型的大数据应用场景。
搜索关键词: 一种 大规模 集合 数据 分布式 处理 方法
【主权项】:
1.一种大规模流式集合数据的分布式处理方法,其特征在于该处理方法包括以下步骤:(1)监控系统从数据源接收集合数据,将接收的集合数据记为记当前分布式存储系统的写入队列长度为wcurrent,分布式存储系统的最大写入队列长度为wmax,对当前分布式存储系统的写入队列长度进行判断,若0<wcurrennt<wmax,则进入步骤(2);若wcurrent≥wmax,则监控系统将接收的集合数据写入监控系统的磁盘,并记写入磁盘的集合数据为sstore,继续接收集合数据,重复本步骤,若wcurrent=0,则访问磁盘上的sstore,并对磁盘上的sstore进行判断,若sstore存在,则进入步骤(2),若sstore不存在,则重复本步骤;(2)根据集合数据中的头信息,所述头信息为集合数据中的成员数n,监控系统对集合数据进行判断,记接收的集合数据当前到达的成员数为scurrent,若scurrent=n,则监控系统将集合数据存储到分布式存储系统中,进入步骤(3),若scurrent<n,则返回步骤(1);(3)监控系统将集合数据中在分布式存储系统中的消息,所述消息为集合数据在分布式存储系统中的表名与行、列位置,发送至分布式消息系统中,分布式消息系统将接收的消息写入分布式消息系统的消息队列Q中,记当前分布式消息系统队列中的所有消息为Icurrent,设定一个消息队列Q的长度阈值为Lmax,并记当前消息队列的长度为Lcurrent,根据消息队列Q的长度阈值Lmax,对消息队列Q的长度进行判断,若Lcurrent≥Lmax,则将Icurrent中的Lcurrent/2的消息存储到分布式消息系统的磁盘中,并记存储至磁盘中的消息为Istore,重复本步骤,若Lcurrent=0,则访问分布式消息系统的磁盘,并对磁盘上的消息进行判断,若磁盘上存在消息Istore,则将消息Istore写入消息队列Q中,重复本步骤,若磁盘上不存在消息Istore,则返回步骤(1),若Lmax>Lcurrent>0,则进行步骤(4);(4)监控系统访问分布式存储系统,对分布式存储系统的写入队列长度进行判断,若wcurrent<wmax,进入步骤(5),若wcurrent≥wmax,重复本步骤;(5)分布式计算系统从分布式消息系统队列中Q中获取消息,设定分布式计算系统最少处理的消息阈值为Lmin,获取消息的时间阈值为tmmax,记当前获取消息的等待时间为twait,对分布式消息系统中的消息队列Q进行判断,若分布式消息系统的消息队列Q中Lcurrent≥Lmin,且twait≤tmax,则分布式计算系统从分布式消息系统的消息队列Q中获取消息,进入步骤(6),若分布式消息系统的队列Q中Lcurrent<Lmin,或twait>tmax,则放弃本次获取的消息,返回上述步骤(2);(6)分布式计算系统根据获取的消息,从分布式存储系统中获取相应的集合数据,并对从分布式存储系统中获取的集合数据进行判断,若分布式存储系统中存在与获取的消息相对应的集合数据,则进行步骤(7),若分布式存储系统中不存在与获取的消息相对应的集合数据,则返回上述步骤(2);(7)分布式计算系统根据步骤(6)获得的集合数据,通过处理算法和业务逻辑对集合数据进行分布式的处理和计算,得到计算结果,并通知监控系统计算完成;(8)记分布式计算系统写入分布式存储系统的最大等待时间为savemax,当前等待时间为savecurrent,监控系统对分布式计算系统写入分布式存储系统的等待时间进行判断,若savecurrent≥savemax,则返回步骤(6),若savecurrent<savemax,则监控系统根据获取的消息,将分布式计算结果存储到分布式存储系统的相应位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710087603.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top