[发明专利]一种数据收集和调节的方法在审
申请号: | 201810851405.4 | 申请日: | 2018-07-30 |
公开(公告)号: | CN109117286A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 刘聪玲;易卜拉欣·卡赛木;孙小艺 | 申请(专利权)人: | 佛山市甜慕链客科技有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;G06F8/30 |
代理公司: | 佛山粤进知识产权代理事务所(普通合伙) 44463 | 代理人: | 张敏 |
地址: | 528500 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据记录 格式化 数据宿节点 连续监视 数据收集 接收率 队列 应用程序使用 数据接收器 处理期间 数据处理 自动地 拉出 分配 存储 保存 | ||
本发明公开了一种数据收集和调节的方法,包括:接收多个数据记录,进行数据处理和等待;将处理后的数据从第一队列中拉出以进行处理;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;将格式化的多个数据记录发送到第二队列并进行保存;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和同时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种数据收集和调节的方法。
背景技术
通常要解决的问题是如何管理和分析大数据,例如,大约数PB的数据。大数据被广义地定义为数据集,其大小超出了常用软件工具在合理的时间内捕获,管理,管理和处理数据的能力。世界的信息大约每两年翻一番。这些信息(或数据)包括关键情报,但对这种情报的挖掘变得成本过高,并且对于许多最终用户和应用程序而言需要太长时间。传统数据集包括填充关系数据库的历史,结构化,静态数据的狭窄子集;大数据为最终用户提供了一个特别困难的问题,因为它是无限的,可以是结构化的和非结构化的,经常可以实时获得并且可以是迭代的。对于当前的关系数据库管理系统而言,这样的大数据对于没有重要处理而言太麻烦,这是耗时的并且最终使得大部分数据过时且价值有限。
发明内容
本发明提出了数据收集和调节的方法,包括:
在处理引擎处从多个数据源接收多个数据记录;
将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;
将接收和格式化的多个数据记录保存在第一个队列中以等待处理;
通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;
在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;
确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;
根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;
从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;
将接收到的格式化多个数据记录保存在第二个队列中;
将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;
在该方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;
确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;
根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和
几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
所述的方法,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。
所述的方法,还包括:
连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。
所述的方法,其中第一和第二队列是Java消息服务(JMS)队列,并且内部格式是JMS格式。
所述的方法,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市甜慕链客科技有限公司,未经佛山市甜慕链客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810851405.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:支持高并发的分布式内存计算集群系统
- 下一篇:匹配选择操作内容同步系统及方法