[发明专利]一种基于流式实时分布式大数据的数据采集方法及系统有效

专利信息
申请号: 201710402900.2 申请日: 2017-06-01
公开(公告)号: CN107395669B 公开(公告)日: 2020-04-07
发明(设计)人: 张星明;梁桂煌;林育蓓;陈霖;古振威;吴世豪 申请(专利权)人: 华南理工大学
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于流式实时分布式大数据的数据采集方法及系统,主要是采用分布式云集群的方式来处理数据采集,提高数据采集的处理性能和提供一定的可扩展性;构建分区关联的任务队列,不需要首先完成数据累计和落地,实时检测业务数据的变化,采用内存模型来高效存储增量收集的数据,减少本地临时文件保存时所占的空间,避免数据堆积和丢失,同时在基于内存模型的基础上,将数据块进行流化处理,直接在内存中对数据流进行并行处理并实时更新到分析数据集。本发明充分发挥了云集群的高效处理性能,同时利用基于内存的高效存储模型完成数据的收集和归类操作,为后续的实时数据分析提供数据基础,保证了实时数据采集可得到实时的反馈分析结果。
搜索关键词: 一种 基于 实时 分布式 数据 采集 方法 系统
【主权项】:
一种基于流式实时分布式大数据的数据采集方法,其特征在于:首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710402900.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top