[发明专利]一种基于日志的系统异常检测方法、装置及存储介质在审
申请号: | 202210480809.3 | 申请日: | 2022-05-05 |
公开(公告)号: | CN115017019A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 龙世淇;杜宏煜;刘畅;陈伟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 刘艳艳 |
地址: | 210012 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 日志 系统 异常 检测 方法 装置 存储 介质 | ||
本发明公开了一种基于日志的系统异常检测方法、装置及存储介质,方法包括:对获取的系统日志数据中的每一条日志进行提取得到日志模板,并生成对应的日志序列,形成日志流;将日志流输入预训练的SVM检测模型,得到输出的第一异常检测结果;采用PCA聚类方法对日志序列进行异常检测,得到第二异常检测结果;采用不变量挖掘方法对日志序列进行异常检测,得到第三异常检测结果;基于得到的第一异常检测结果、第二异常检测结果和第三异常检测结果,采用混淆矩阵评估的方法进行综合判断,得到最终的系统异常检测结果。应用不用的算法从多种角度进行检测,并综合判断异常评估,实现快速准确地检测系统中发生的异常以及对异常点进行定位。
技术领域
本发明属于计算机异常检测与防御技术领域,涉及一种基于日志的系统异常检测方法、装置及存储介质。
背景技术
随着互联网的迅猛发展,系统的复杂性与集成性不断提高,随之带来的安全问题也蜂拥而至。作为记录了系统工作情况的宝贵资源,系统日志记录也随着系统规模的增加而逐渐增多,每小时都会产生数以十万计的日志记录。而为了及时对系统异常进行检测,异常点进行定位,系统日志的合理利用方式具有巨大的研究价值,能否合理地使用系统日志进行异常检测关系到系统的健壮性与系统安全等诸多方面。
现有的日志异常检测方式大多数为开发人员手动匹配正则表达式和对关键字进行搜索的检查方式,而这些方式因数据量过大已经接近不可行或存在检测时间过长、人力资源消耗过大等问题。例如现代系统的规模之大使得系统行为过于复杂,每个开发人员都无法理解全部系统的架构,他们通常只负责子组件。例如,许多开源系统(例如Spark)由数百名开发人员实现。而人工使用日志对异常进行排查的必要条件就是对系统足够了解。而现有的自动异常检测方法也存在着误报率较高或自适应能力差等问题。作为对异常进行判断的证据,提高异常检测的精确率和降低误报率都具有重要的工业意义。在现代大规模系统中若因系统事件或是黑客入侵造成系统中断则会直接导致程序的崩溃并造成大量的经济损失。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种基于日志的系统异常检测方法、装置及存储介质,用于快速检测系统中的异常,并进一步进行异常点的定位。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种基于日志的系统异常检测方法,包括:
获取待检测的系统日志数据;
对获取的系统日志数据中的每一条日志进行提取得到日志模板,并生成对应的日志序列,形成日志流;
将日志流输入预训练的SVM检测模型,得到输出的第一异常检测结果;
采用PCA聚类方法对日志序列进行异常检测,得到第二异常检测结果;
采用不变量挖掘方法对日志序列进行异常检测,得到第三异常检测结果;
基于得到的第一异常检测结果、第二异常检测结果和第三异常检测结果,采用混淆矩阵评估的方法进行综合判断,得到最终的系统异常检测结果。
在一些实施例中,所述预训练的SVM检测模型的训练方法包括:
获取带有标签的系统日志数据,其中所述系统日志数据包括异常和正常系统日志数据组成的数据集;
对获取的带有标签的系统日志数据中的每一条日志进行提取得到日志模板,并生成对应的日志序列,形成日志流,作为训练数据集;
利用所述训练数据集输入SVM检测模型,对SVM检测模型进行训练优化,得到训练好的检测模型。
在一些实施例中,采用PCA聚类方法对日志序列进行异常检测,包括:
将每个日志序列矢量化为事件计数向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210480809.3/2.html,转载请声明来源钻瓜专利网。