[发明专利]一种数据收集和调节的方法在审
申请号: | 201810851405.4 | 申请日: | 2018-07-30 |
公开(公告)号: | CN109117286A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 刘聪玲;易卜拉欣·卡赛木;孙小艺 | 申请(专利权)人: | 佛山市甜慕链客科技有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;G06F8/30 |
代理公司: | 佛山粤进知识产权代理事务所(普通合伙) 44463 | 代理人: | 张敏 |
地址: | 528500 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据记录 格式化 数据宿节点 连续监视 数据收集 接收率 队列 应用程序使用 数据接收器 处理期间 数据处理 自动地 拉出 分配 存储 保存 | ||
1.一种数据收集和调节的方法,其特征在于,包括:在处理引擎处从多个数据源接收多个数据记录;
将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;
将接收和格式化的多个数据记录保存在第一个队列中以等待处理;
通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;
在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;
确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;
根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;
从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;
将接收到的格式化多个数据记录保存在第二个队列中;
将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;
在方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;
确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;
根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和
几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
2.如权利要求1所述的方法,其特征在于,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。
3.如权利要求1所述的方法,其特征在于,还包括:
连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。
4.如权利要求1所述的方法,其特征在于,第一和第二队列是Java消息服务(JMS)队列,并且内部格式是JMS格式。
5.如权利要求1所述的方法,其特征在于,还包括:
通过处理引擎近似实时地比较来自摄取节点的每个格式化的多个数据记录与至少第一富集规则,以确定至少第一富集规则是否适用于一个或多个中的至少一个数据元素。格式化的多个数据记录;和
如果适用的话,由处理引擎近乎实时地丰富一个或多个格式化的多个数据记录中的至少一个数据元素,该数据元素具有根据至少第一富集规则的附加数据,以形成一个或多个丰富的格式化数据记录。
6.如权利要求1所述的方法,其特征在于,将所述多个数据记录中的每一个从它们各自的本机格式中的每一个处理成相同的内部格式还包括:
通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和
通过至少一个翻译器将多个数据记录中的每一个使用其解析的多个组成部分转换成相同的内部格式,近实时地翻译。
7.如权利要求1所述的方法,其特征在于,相同的内部格式包括多个字段,其中所述多个字段中的至少第一个对于来自所述多个数据源的所有多个数据记录是共同的,并且所述多个字段中的至少第二个是唯一的多个数据记录的单个类。
8.如权利要求1所述的方法,其特征在于,所述多个数据源包括从由关系数据库,网站,RSS提要,SIEM文件,电子邮件存档组成的组中选择的至少两个源。
9.如权利要求6所述的方法,其特征在于,所述至少一个解析器选自包括逗号分隔值解析器,电子邮件解析器,可交换图像文件格式(EXIF)解析器,JavaScript开放符号解析器,Libcap解析器和根据多个数据记录的一个或多个本机格式的XML解析器。
10.如权利要求5所述的方法,其特征在于,所述至少第一富集规则选自算法富集规则和维度富集规则;所述算法丰富规则是地理位置的添加;所述维度富集包括:
将来自每个格式化的多个数据记录的数据元素与数据丰富表中的二级数据进行比较;和根据辅助数据修改数据元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市甜慕链客科技有限公司,未经佛山市甜慕链客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810851405.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:支持高并发的分布式内存计算集群系统
- 下一篇:匹配选择操作内容同步系统及方法