[发明专利]一种保留特定业务信息的日志模板提取方法及装置有效
申请号: | 202210702569.7 | 申请日: | 2022-06-21 |
公开(公告)号: | CN114818643B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 汤汝鸣;曹立;殷康璘;刘大鹏 | 申请(专利权)人: | 北京必示科技有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/194;G06F40/216;G06F16/18 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 陈俊由 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 保留 特定 业务 信息 日志 模板 提取 方法 装置 | ||
本发明公开了一种保留特定业务信息的日志模板提取方法,包括:S1针对业务日志,设立实体对象的字段匹配规则;S2针对每一条日志,匹配其实体对象的字段,并统一使用特定的占位符替换;S3基于通用的格式树模板提取算法,对原始日志进行模板提取;S4对提取后的模板进行序列提取,并对模板提取算法中相似度较高的字段进行人工核验,以对预处理的匹配进行反馈;S5通过已匹配的实体对象字段,将属于同一对象的日志序列提取出来,构造控制流图。本发明通过预处理阶段的字段匹配规则,可以有效增加日志模板提取的准确性,并大幅增加模板的可读性,同时对特定字段的提取可以有效帮助日志序列的识别,减少序列模式识别的复杂度,提高算法运行效率。
技术领域
本发明属于计算机技术领域,具体涉一种保留特定业务信息的日志模板提取方法、装置、设备和存储介质。
背景技术
在业务监控日志中,通过特定日志类型的出现或数量变化可以帮助运维人员判断业务是否正常运行。通常情况下,需要对不同类型的日志进行关键字的监控或模板提取来对大量不同类型的日志进行区分。在实际的环境中,由于大型企业线上系统的业务数量多、交易量大,在短时间内有大量并发的业务,其产生的日志数量巨大且混杂。另一方面,由于不同的业务、应用系统的实现上存在区别,其产生的日志格式较为复杂,难以通过统一的方式进行处理。上述原因使得人工判别或自动化识别日志模板都具有相当的挑战。本发明主要解决在海量日志中,对无特定格式的日志进行快速模板提取,并基于提取后的日志模板,对业务流程的日志序列进行构造,通过多条日志构建完整的业务执行流程,以提高通过日志模板对业务异常判断的准确性。
现有技术中,针对常见的日志类型,日志模板提取主要通过空格等分隔符,对日志文本进行分词,并按照分词后的每一部分,将日志的单词分为文字、时间、数字等格式。在分词的基础上,模板提取算法将逐一对比不同的日志文本,并根据日志文本的相似度,对不同的日志进行聚类,最终生成若干模板。
模板提取的结果受到算法中文本相似度等参数的影响,通过这些参数会影响最终模板数量。现有的使用较为频繁的日志模板提取方法,通常会构造日志的格式树结构,将训练数据中的日志按照分词后的结果,形成多层的树型结构,在由叶子结点向根结点的方向上,将会对相似的模板进行合并。通过控制层数,可以对输出的模板数量进行调整。
在提取后的日志模板序列中,可以构造出完整的业务流程。目前通常使用最小近邻算法对日志模板序列进行提取,并构造控制流图。通过该方法,将对日志序列中经常出现的子串模式进行识别,以此发现特点的业务日志序列。
现有日志模板提取方法,主要通过简单的分词方式对日志文本进行预处理,针对原始的日志文本,对特定格式的内容如时间戳、数字、IP地址等进行替换,对剩余部分的文本则按照普通的单词进行处理。在实际使用中,日志中存在许多特定的字段例如主机编号等,而由于模板数量的限制,会导致上述大量相似的字段被归并,在最终显示的模板中被通配符替换,使得最终的模板可读性和可解释性较差。
另一方面,由于上述方法中对特定字段的处理不够,使得在日志模板序列的提取过程中,无法快速地区分不同业务实例的日志序列。在实际的序列提取中,需要通过算法过滤其他日志的噪声。而在实际的环境中,由于大量同种业务高并发的情况下,对日志噪声的过滤效果在实际中得不到保证,无法有效地构造精准的控制流图。
发明内容
本发明提供一种保留特定业务信息的日志模板提取方法、装置、设备和存储介质,实现有效增加日志模板提取的准确性,并大幅增加模板的可读性,帮助日志序列的识别,减少序列模式识别的复杂度,提高算法运行效率的效果。
第一方面,
本发明实施例提供了一种保留特定业务信息的日志模板提取方法,该方法输入数据为按照时间顺序排列的原始日志文本序列,通过本发明中所诉方法,进行模板提取并基于模板提取结果对模板序列进行模式识别,最终输出结果为业务事件对应的日志控制流图,所述方法包括一种保留特定业务信息的日志模板提取方法,其特征在于,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京必示科技有限公司,未经北京必示科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210702569.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置