[发明专利]一种数据处理方法及第一处理单元在审
申请号: | 202111416263.7 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114064676A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 陈清 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/22;G06F16/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李慧慧 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 第一 处理 单元 | ||
本发明公开了一种数据处理方法及第一处理单元,第一处理单元在目标容器节点中,通过多线程采集方式分别从多个日志文件中采集日志更新数据,将采集到的日志更新数据发送至第二处理单元,以使得第二处理单元对日志更新数据进行数据处理及存储。第一处理单元可以通过单进程而多线程的采集方式,适应目标容器节点中高并发的实时日志采集场景,即可以同时对目标容器节点中多个日志文件进行日志更新数据的实时采集,有效保障对日志更新数据的采集效率。且,第一处理单元负责对日志更新数据的采集,采集好日志更新数据后发送至第二处理单元进行后续处理及存储,有效实现日志更新数据的采集与后续处理的解耦,实现微服务化,可扩展性较高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及第一处理单元。
背景技术
随着科学技术的发展,容器集群控制技术不断提高。
其中,容器集群可以集计算、存储和网络资源为一体,为容器化的应用程序提供部署、资源调度和弹性伸缩等一系列功能。容器集群中可以包括有多个容器节点。容器节点可以是容器集群中最小的硬件单位,比如,容器节点可以为一台真实的物理机器;再比如,容器节点也可以为一个虚拟机。在容器集群中,应用程序运行时的位置、数量和时间都可以是动态变化的。现有技术可以通过专用于容器集群的日志采集工具来对容器集群进行日志数据的采集。
但是,现有技术在日志数据高并发的应用场景下,无法对日志数据进行实时采集。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及第一处理单元,技术方案如下:
一种数据处理方法,应用于第一处理单元,包括:
所述第一处理单元在目标容器节点中,通过多线程采集方式,分别从多个日志文件中采集日志更新数据,所述目标容器节点为容器集群中的设置有所述第一处理单元的一个容器节点;
所述第一处理单元将采集到的所述日志更新数据发送至第二处理单元,以使得所述第二处理单元对所述日志更新数据进行数据处理及存储;其中,所述第一处理单元与所述第二处理单元不同。
可选的,所述第一处理单元从目标日志文件中采集日志更新数据,包括:
所述第一处理单元基于所述目标日志文件的文件结束符,和已保存的对所述目标日志文件的当前消费位移,确定所述目标日志文件是否存在目标更新数据,如果是,则创建与所述目标日志文件对应的一个抓取器;
所述第一处理单元调用所述抓取器,在所述目标日志文件中采集所述目标更新数据;
所述第一处理单元将采集到的所述目标更新数据存储至数据聚合单元中。
可选的,在所述第一处理单元调用所述抓取器,在所述目标日志文件中采集所述目标更新数据之后,所述方法还包括:
如果所述目标日志文件在第一预定义时长内未出现新的更新数据,则所述第一处理单元关闭所述抓取器。
可选的,在所述第一处理单元调用所述抓取器,在所述目标日志文件中采集所述目标更新数据之后,所述方法还包括:
如果所述目标日志文件的删除时长不小于第二预定义时长,则所述第一处理单元关闭所述抓取器。
可选的,在所述第一处理单元调用所述抓取器,在所述目标日志文件中采集所述目标更新数据之后,所述方法还包括:
如果所述目标日志文件出现重命名,则所述第一处理单元关闭所述抓取器。
可选的,所述第二处理单元对所述日志更新数据进行数据处理及存储,包括:
所述第二处理单元按照预定义的数据处理方式,在所述日志更新数据中添加目标字段,获得处理后数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111416263.7/2.html,转载请声明来源钻瓜专利网。