[发明专利]异常日志的检测方法、装置、电子设备及存储介质在审
申请号: | 202110588358.0 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113032226A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 易存道 | 申请(专利权)人: | 北京宝兰德软件股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34;G06F16/35;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王毅 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常 日志 检测 方法 装置 电子设备 存储 介质 | ||
本发明提供的一种异常日志的检测方法、装置、电子设备及存储介质,通过提取目标日志的目标日志模板;通过异常日志词库模型,计算所述目标日志模板的异常分数值;若所述异常分数值大于预设阈值,确定所述目标日志为异常日志;实现了通过异常日志词库模型计算日志模板的异常分数值,最终确定日志是否异常,检测方法简单高效,通过每一词语的分数值确定日志模板的异常分数值,具有可解释性较好的特点。
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常日志的检测方法、装置、电子设备及存储介质。
背景技术
现有的应用生产系统中,日志分析作为运维人员生产系统故障问题排查,定位原因的最重要途径之一,生产系统发生严重故障,在日志中往往会打印出关键的异常信息帮助运维人员定位。
在实际生产中日志虽然是作为重要的问题诊断方法之一,但是存在着日志数据量大,日志种类多,重复内容多等特点,传统人工运维方式应用小的生产集群尚可,对于超大型的集群,人力往往需要日志分析工具辅助进行分析。目前常用的异常日志分析方式有DeepLog和Logrobust,其中,DeepLog可以对有着规律的运行模式的日志进行检测,但检测过程为黑箱;Logrobust检测过程中,需要对所有原始日志进行打标和训练,工作量较大。
由此可见,目前的异常日志检测方法存在着对日志格式要求高、检测方法复杂、效率较低,且由于检测过程为黑箱,导致检测结果解释性差的问题。
发明内容
本发明提供一种异常日志的检测方法、装置、电子设备及存储介质,用以解决现有技术中异常日志检测方法存在着对日志格式要求高、检测方法复杂、效率较低,且由于检测过程为黑箱,导致检测结果解释性差的问题,实现了通过异常日志词库模型计算日志模板的异常分数值,最终确定日志是否异常,检测方法简单高效,通过每一词语的分数值确定日志模板的异常分数值,具有可解释性较好的特点。
本发明提供的一种异常日志的检测方法,包括:
提取目标日志的目标日志模板;
通过异常日志词库模型,计算所述目标日志模板的异常分数值;其中,所述异常日志词库模型是基于历史日志与所述历史日志对应的历史日志模板中任一词语对应的分数值训练得到的;
若所述异常分数值大于预设阈值,确定所述目标日志为异常日志。
进一步的,根据本发明提供的一种异常日志的检测方法,所述通过异常日志词库模型,计算所述目标日志模板的异常分数值,包括:
将所述目标日志模板导入异常日志词库模型,确定所述目标日志模板中任一词语的分数值;
根据所述任一词语的分数值,基于算数平均方法,计算所属目标日志模板的异常分数值。
进一步的,根据本发明提供的一种异常日志的检测方法,所述提取目标日志的目标日志模板,包括:
提取出目标日志中的变量;
将所述变量替换为预设符号,通过Drain3算法,得到所述目标日志的目标日志模板。
进一步的,根据本发明提供的一种异常日志的检测方法,所述通过异常日志词库模型,确定所述目标日志模板的异常分数值之前,还包括:
确定任一历史日志为异常或正常;
提取任一历史日志的历史日志模板,并为任一历史日志模板添加标记;其中,历史日志为异常时添加第一标记,历史日志为正常时添加第二标记;
将具有相同标记的历史日志模板进行合并,生成两组历史日志样本;
通过TF-IDF算法,确定两组历史日志样本中任一词语的分数值,建立异常日志词库模型。
进一步的,根据本发明提供的一种异常日志的检测方法,所述提取任一历史日志的历史日志模板之前,还包括:
对所述历史日志进行去重处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宝兰德软件股份有限公司,未经北京宝兰德软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588358.0/2.html,转载请声明来源钻瓜专利网。