[发明专利]一种基于流式实时分布式大数据的数据采集方法及系统有效
申请号: | 201710402900.2 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107395669B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 张星明;梁桂煌;林育蓓;陈霖;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于流式实时分布式大数据的数据采集方法及系统,主要是采用分布式云集群的方式来处理数据采集,提高数据采集的处理性能和提供一定的可扩展性;构建分区关联的任务队列,不需要首先完成数据累计和落地,实时检测业务数据的变化,采用内存模型来高效存储增量收集的数据,减少本地临时文件保存时所占的空间,避免数据堆积和丢失,同时在基于内存模型的基础上,将数据块进行流化处理,直接在内存中对数据流进行并行处理并实时更新到分析数据集。本发明充分发挥了云集群的高效处理性能,同时利用基于内存的高效存储模型完成数据的收集和归类操作,为后续的实时数据分析提供数据基础,保证了实时数据采集可得到实时的反馈分析结果。 | ||
搜索关键词: | 一种 基于 实时 分布式 数据 采集 方法 系统 | ||
【主权项】:
一种基于流式实时分布式大数据的数据采集方法,其特征在于:首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710402900.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置