[发明专利]计算机系统日志模板的自动生成和在线更新方法与系统有效
申请号: | 201910035072.2 | 申请日: | 2019-01-15 |
公开(公告)号: | CN111435343B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 侯志荣;刘嘉伟;李影 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/16;G06F16/23;G06F40/186 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机系统 日志 模板 自动 生成 在线 更新 方法 系统 | ||
本发明公布了一种计算机系统日志模板的自动生成和在线更新方法及系统,包括离线挖掘阶段和在线更新阶段;离线挖掘阶段采用分组聚类方法,从给定日志数据集合中挖掘得到日志模板列表;在线更新阶段基于新采集的日志进行逐条分析,实现对现有日志模板自动更新。系统包括:日志预处理模块、日志分组组件、模板处理组件、模板跨组整合组件、模板匹配组件、模板更新组件。本发明不依赖特定的数据内容和格式,具有很强的泛化能力;可实现对系统日志数据集的自动化分析,生成日志模板,并能针对新采集的日志,提取数据特征,实现日志模板的自动化更新,确保日志模板列表的完备性和及时更新,且运行效率高。
技术领域
本发明涉及计算机系统日志模板挖掘技术领域,尤其涉及一种基于分组聚类的计算机系统日志模板自动生成和在线更新的方法与系统。
背景技术
系统日志是计算机系统运行维护的重要资料,日志分析是异常检测、故障诊断等运维工作不可或缺的重要手段。近年来,随着云计算、分布式技术架构的广泛应用,各企业的IT规模迅速扩大,产生了海量的系统日志。传统的采用人工方式对日志进行分析的做法变得越来越困难。即便是借助基于规则的自动化辅助分析工具,面对海量、复杂、异构、多变的系统日志数据,日志分析依然是一项巨大挑战。
针对上述挑战,近年来,学术界和工业界开始尝试将机器学习等人工智能方法引入日志分析工作,辅助异常检测、根因分析以及故障预测等运维工作。日志模板挖掘是上述方法的一项基础技术。通过日志模板挖掘,可以实现对海量日志数据的抽象和简化,从而有利于提取日志数据特征,构建机器学习等算法模型。
已有的一些日志模板挖掘方法与系统,大多都是基于一定规模日志数据集进行离线模板挖掘,由于数据规模的限制,往往无法覆盖系统日志模板的全部情形;如果增加日志处理规模,又必然对运行效率带来严重影响。也有一些在线挖掘分析的方法,但往往基于一定的假设条件,如同一模板输出的日志数据长度一定相同,或者又设置有较多调试参数,泛化能力有待增强。
发明内容
为了克服现有日志模板挖掘方法的不足,本发明提供一种基于分组聚类的日志模板自动生成和在线更新的方法与系统,可实现对系统日志数据集的自动化分析,生成日志模板,并能针对新采集的日志,分析相关数据特征,实现日志模板的自动化更新。本发明运行效率高,且不依赖特定的数据内容和格式,具有很强的泛化能力。
本发明提供的技术方案是:
一种计算机系统日志模板的自动生成和在线更新方法,包括离线挖掘和在线更新两个阶段;离线挖掘阶段采用分组聚类方法,从给定日志数据集合中挖掘出日志模板列表;在线更新阶段基于新采集的日志进行逐条分析,实现对现有日志模板自动更新。具体包括如下步骤:
1)数据预处理。
针对给定规模的计算机日志数据集LC,完成如下预处理工作:过滤部分非关键字段(如时间戳)、完成特定字段的变量替代(比如数字、IP地址等通用字段),生成待分析日志集LC’。
2)离线挖掘阶段,包括如下步骤:
21)日志分组;
针对待分析日志集LC’,对每行日志进行分词,得到该行日志的TOKEN列表,并统计该行日志的长度(如TOKEN数量),然后根据各行日志的不同长度,将日志集划分成n个不同的分组LCS1,LCS2,…LCSn。
22)子组聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910035072.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水体立体化养殖系统
- 下一篇:一种转子、液力缓速器及转子的制造工艺