[发明专利]一种流式并行处理日志的方法和设备有效
申请号: | 201611174560.4 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106599222B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 区明海 | 申请(专利权)人: | 广州四三九九信息科技有限公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/18 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 梁斌 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 处理 日志 方法 设备 | ||
本发明实施例提出了一种流式并行处理日志的方法和设备,其中该方法包括:将不断获取的日志数据提交给多个子任务线程依次进行预处理;针对各预处理后的日志数据,将对应所述日志数据的用户的基础数据补入所述日志数据中;将进行补充后的日志数据插入数据库。以此通过多任务流程来对日志数据进行依次处理,提高了处理效率,保证了处理的实时性,且在处理时,补入了用户的基础数据,提高了处理后的日志数据的价值。
技术领域
本发明涉及数据处理领域,特别涉及一种流式并行处理日志的方法和设备。
背景技术
现有技术中,游戏或者网站每天都产生大量的日志,日志收集,提取,转换,加载的实时性对于游戏数据分析具有很大的作用。
但是目前的处理方式是将日志文件加载到程序内存中,一行一行的读取日志,将整个日志处理流程集中到一个任务中,导致处理效率不高,且降低了日志处理的实时性。
发明内容
针对现有技术中的缺陷,本发明提出了一种流式并行处理日志的方法和设备,用以提高处理效率,提高处理的实时性。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种流式并行处理日志的方法,包括:
将不断获取的日志数据提交给多个子任务线程依次进行预处理;
针对各预处理后的日志数据,将对应所述日志数据的用户的基础数据补入所述日志数据中;
将进行补充后的日志数据插入数据库。
在一个具体的实施例中,所述日志数据是用户运行应用所产生的流水数据;
所述基础数据包括:用户来源渠道号、用户注册类型、用户注册时间、用户首次支付时间。
在一个具体的实施例中,所述“将不断获取的日志数据提交给多个子任务线程依次进行处理”,之前还包括:
设置的多个日志收集节点,其中各日志收集点对应各日志源;
将所述日志收集节点不断收集的日志数据依次以队列的方式进行存储。
在一个具体的实施例中,所述“将对应所述日志数据的用户的基础数据补入所述日志数据中”包括:
通过独立的第一子任务线程将对应所述日志数据的用户的基础数据补入所述日志数据中。
所述“将进行补充后的日志数据插入数据库”包括“
通过独立的第二子任务线程将补充用户基础数据后的日志数据插入数据库。
在一个具体的实施例中,所述“将对应所述日志数据的用户的基础数据补入所述日志数据中”,包括:
提取活跃用户的用户基础数据并进行缓存;
确定所述日志数据所对应的用户;
若所述用户为活跃用户,从缓存中提取相应的用户基础数据补入所述用户的日志数据中。
本发明实施例还提出了一种流式并行处理日志的设备,包括:
预处理模块,用于将不断获取的日志数据提交给多个子任务线程依次进行预处理;
补充模块,用于针对各预处理后的日志数据,将对应所述日志数据的用户的基础数据补入所述日志数据中;
插入模块,用于将进行补充后的日志数据插入数据库。
在一个具体的实施例中,所述日志数据是用户运行应用所产生的流水数据;
所述基础数据包括:用户来源渠道号、用户注册类型、用户注册时间、用户首次支付时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州四三九九信息科技有限公司,未经广州四三九九信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611174560.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:一种记录文件被访问记录的方法