[发明专利]一种日志压缩、解压缩方法、设备及存储介质在审
申请号: | 201911077304.7 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110851409A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 张晨;黄南溪;郭建新 | 申请(专利权)人: | 南京星环智能科技有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/18 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 压缩 解压缩 方法 设备 存储 介质 | ||
本发明实施例公开了一种日志压缩、解压缩方法、设备及存储介质。该日志压缩方法包括:对原始的日志文件进行解析,得到所述日志文件的多项列数据;确定各项列数据的信息熵;若所述列数据的信息熵小于或者等于设定阈值,将所述列数据的列名对应的所有数据替换成字符编码以进行压缩,得到所述日志文件的压缩文件。该方法可以极大的节省了日志文件的存储空间使用,可以节省存储成本。
技术领域
本发明实施例涉及日志压缩和解压缩技术领域,尤其涉及一种日志压缩、解压缩方法、设备及存储介质。
背景技术
一般而言,一个集群化的企业级应用每日会产生百GB(容量单位)甚至上TB(1TB=1024GB)的日志文件数据(比如:apache-access、tomcat-action日志),同时为了满足安全审计、等级保护、Bug定位等要求,一般至少备份存储1个月~6个月的历史日志数据。如此,仅满足日志备份存储需求,企业将需购置多台日志服务器及PB(1PB=1024TB)级的硬盘来存储。
通常采用zip、tar、gz等常用算法压缩对日志文件进行压缩存储,一般最多可以达到10~20倍的压缩比例,即通过这些常用算法压缩对日志文件压缩,单日也会累计产生10GB以上的日志压缩文件。
需要企业为日志存储扩容或者降低历史数据备份周期才能够满足日志备份。而任意降低历史数据的备份周期,在有些场景下,是无法满足安全审计需求的,甚至违反等级保护的要求。所以企业仍然需要购置服务器和大量的磁盘来存储管理这些海量的日志文件数据,以备不时之需。除此之外,还需要运维人员维护,耗费大量人力物力。
发明内容
本发明实施例提供了一种日志压缩、解压缩方法、设备及存储介质,可以极大的节省了日志文件的存储空间使用,可以节省存储成本,节省维护成本。
第一方面,本发明实施例提供了一种日志压缩方法,该方法包括:
对原始的日志文件进行解析,得到所述日志文件的多项列数据;
确定各项列数据的信息熵;
若所述列数据的信息熵大于设定阈值,将所述列数据的列名对应的所有数据替换成字符编码以进行压缩,得到所述日志文件的压缩文件。
第二方面,本发明实施例还提供了一种日志解压缩方法,该方法包括:
对日志文件的压缩文件进行解析,得到所述日志文件的多项列数据;
将所述列数据中的所有字符编码替换成对应的数据以进行解压缩。
第三方面,本发明实施例还提供了一种日志压缩设备,包括处理器和存储器,存储器用于存储指令,当指令执行时使得处理器执行以下操作:
对原始的日志文件进行解析,得到所述日志文件的多项列数据;
确定各项列数据的信息熵;
若所述列数据的信息熵小于或者等于设定阈值,将所述列数据的列名对应的所有数据替换成字符编码以进行压缩,得到所述日志文件的压缩文件。
第四方面,本发明实施例还提供了一种日志解压缩设备,包括处理器和存储器,存储器用于存储指令,当指令执行时使得处理器执行以下操作:
对日志文件的压缩文件进行解析,得到所述日志文件的多项列数据;
将所述列数据中的所有字符编码替换成对应的数据以进行解压缩。
第五方面,本发明实施例提供了一种存储介质,存储介质用于存储指令,指令用于执行:
对原始的日志文件进行解析,得到所述日志文件的多项列数据;
确定各项列数据的信息熵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京星环智能科技有限公司,未经南京星环智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911077304.7/2.html,转载请声明来源钻瓜专利网。