[发明专利]通用的原始日志清洗装置及方法在审
申请号: | 201611183585.0 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106599244A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 张亚军;田文宝;夏鹏 | 申请(专利权)人: | 飞狐信息技术(天津)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津创智天诚知识产权代理事务所(普通合伙)12214 | 代理人: | 周庆路,田阳 |
地址: | 300000 天津市滨海新区天津经济开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用 原始 日志 清洗 装置 方法 | ||
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种通用的原始日志清洗装置及方法。
背景技术
在进行日志分析的时候,日志的数据是杂乱无章的,或则说日志的数据并不是都想看到的。所以需要对里面的数据进行清洗,即,过滤里面的字符串,并对其结构化处理。
一些大型的互联网公司,日志多样,这样的日志都需要清洗,有的日志量数据庞大,每天大约占用几个t的存储空间,这里面就有2个问题:一是日志形式多,每类日志都要清洗,如果每个日志都专门独自的去处理,耗费不少时间,第二个问题是日志量大,将会占用很大的空间资源,再读取这些日志时耗费的网络io也会很高。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种灵活的装置来自定义配置来完成不同日志的清洗工作的通用的原始日志清洗方法。
为实现本发明的目的所采用的技术方案是:
一种通用的原始日志清洗装置,包括,
变量存储模块,用于存储与每类日志对应的元数据,与各元数据对应的正则表达式及匹配的字段;
配置模块,用于配置多个清洗任务、每个清洗任务对应的清洗前后日志的存储路径、存储格式及压缩格式,所述的清洗任务与元数据一一对应;
清洗模块,根据日志类型识别对应的元数据,并根据任务配置采用mapreduce程序完成清洗逻辑并进行预设的存储。
所述的配置采用zookeeper进行存储。
一种通用的原始日志清洗方法,包括,
建立与每类日志对应的元数据,与各元数据对应正则表达式及匹配的字段并存储;
配置多个与元数据一一对应的清洗任务及每个清洗任务对应的存储路径、存储格式及压缩格式并存储;
根据日志类型识别对应的元数据,并根据清洗任务配置采用mapreduce程序完成清洗步骤并进行预设的存储。
所述的配置采用zookeeper进行存储。
在所述的清洗步骤中mapreduce程序根据输入数据的大小自动判断reduce的个数。
待清洗数据存储在hdfs目录中。
与现有技术相比,本发明的有益效果是:
本发明通过元数据管理:对应每类日志,都建立一套元数据,把日志与变量存储及配置合理的管理起来,在管理后台里可以配置这些信息。而且正则表达式的使用能筛选满足规则的日志并截取重要参数,最后和变量存储里的变量建立对应关系。同时采用mapreduce程序,根据原始日志文件的大小,计算所需要的reduce个数,通过变量存储及配置编写清洗逻辑最后完成清洗流程。
附图说明
图1所示为本发明的通用的原始日志清洗方法的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为减小数据文件的体量,目前最流行使用的压缩是lzo压缩和snappy压缩。Hadoop是分布式存储及分布式计算的大数据平台架构,借助该平台,本发明通过mapreduce程序把不规则的日志进行结构化后按自定义的存储格式及压缩格式存储到hdfs中供后期使用。克服了现有技术中根据业务需求同步的日志做不同的日志处理,代码重复率高的缺陷,减少开发人员的工作量。
本发明的通用的原始日志清洗装置包括变量存储模块、配置模块和清洗模块,其中,
变量存储模块用于存储与每类日志对应的元数据,与各元数据对应的正则表达式及匹配的字段;
正则表达式是存储在变量存储模块里的,和变量分开存储,正则表达式的作用是获取需要的字段,必须保证正确,举例:
^([0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3})--//[(.*)//]/"GET/hdpb.gif//?(.*)HTTP.*/"[0-9]{3}[0-9]{1,5}/"(.*)/"$"
小括号里面的代表要抽取的字段,这些字段会分类,比如ip字段,时间字段,参数字段,ua字段。元数据根据待清洗数据的类型和清洗目标设置为多个,具体根据业务上的需求选择匹配合理的元数据即可。元数据的采用简化了待清洗数据模型,可实现同类或者近似清洗的快捷配置。
所述的配置模块用于配置多个清洗任务、每个清洗任务对应的清洗前后日志的存储路径、存储格式及压缩格式,所述的清洗任务与元数据一一对应;将各种清洗要求直接具体任务化并存储,每种任务对应的存储压缩格式等必要因素,这样调取匹配的任务即可实现对应的清洗进程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于飞狐信息技术(天津)有限公司,未经飞狐信息技术(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611183585.0/2.html,转载请声明来源钻瓜专利网。