[发明专利]一种日志数据处理方法及装置在审
申请号: | 202110507902.4 | 申请日: | 2021-05-10 |
公开(公告)号: | CN115408353A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 刘芳;于涛;李方岩 | 申请(专利权)人: | 中国移动通信集团有限公司;中国移动通信集团黑龙江有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 数据处理 方法 装置 | ||
本发明提供一种日志数据处理方法及装置。该方法包括:基于加权相似度的聚类算法,根据待处理日志数据构建文本向量;对所述文本向量进行聚类,获取对应的日志聚类结果;根据所述日志聚类结果,生成日志聚类模板。本发明提供的日志数据处理方法及装置,可以减少日志数据过滤时间,同时保证日志数据的可靠性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种日志数据处理方法及装置。
背景技术
随着大数据时代的飞速发展,服务器等设备的数量迅速增长,其所产生的数据日志越来越多,业务系统、应用支撑、硬件设备均会产生大量的数据日志,当存在大量不同型号的服务器和网络设备、各种各样的虚拟化方案、不同的操作系统、多样化的应用软件和数据库时,会造成大量数据日志之间的互相递进、堆叠。现有技术对日志数据进行分析方案如下:
(1)局部语料库聚类文本:基于Word2vec等词向量模型得到单词的词向量进行文本聚类。由于不能对整个语料库数据进行统计,仅通过单词局部上下文窗口内的词语对模型进行训练,故通常会存在文本向量维度过高的问题,且忽略词语本身的含义以及词语之间的相互联系,导致最终得到的文本向量缺少语义信息,准确度不高。
(2)面对海量数据的聚类算法:采用传统DBSCAN等聚类算法随着数据规模的扩大,执行时间会很长,并且产生过量的簇。DBSCAN算法的主要阀值参数难以确定,且时间复杂度过高,导致聚类的效果不理想,当数据规模增大时,执行效率低。
(3)实时数据相似度计算方法:传统文本聚类方法中,常常采用直接对文本数据进行相似度计算的算法,例如编辑距离和字面距离等,这些算法对句子仅能在字本位进行比较,不能很好对句子的语义内容进行区别,使得相似语义不同字面表达的句子难以有效形成聚类,最终影响了分析结果,并不能灵活处理数据。
发明内容
本发明提供一种日志数据处理方法及装置,用以解决现有技术中日志数据聚类效率低,准确度不高的技术问题。
本发明提供一种日志数据处理方法,包括:
基于加权相似度的聚类算法,根据待处理日志数据构建文本向量;
对所述文本向量进行聚类,获取对应的日志聚类结果;
根据所述日志聚类结果,生成日志聚类模板。
在一个实施例中,所述基于加权相似度的聚类算法,根据待处理日志数据构建文本向量包括:
通过Glove模型训练预处理后的语料库,获取所述语料库中的词语对应的词向量;
根据所述词向量获取词向量模型;
对所述待处理日志数据进行预处理,将预处理后的所述待处理日志数据通过所述词向量模型进行语义编码,获取文本特征向量;
根据所述文本特征向量和所述词向量,构建所述文本向量。
在一个实施例中,所述根据所述文本特征向量和所述词向量,构建所述文本向量,包括:
根据所述词向量对所述语料库中的词语进行聚类,形成文本向量分量对应的词簇;
计算所述文本特征向量与所述词簇间的相似度系数以及所述词簇对应的逆文档频率;
根据所述相似度系数与所述逆文档频率,获取所述文本特征向量对应的所述文本向量。
在一个实施例中,所述根据所述相似度系数与所述逆文档频率,构建所述文本特征向量对应的所述文本向量包括:
通过采用基于杰卡德相似度系数的聚类加文本向量构建法,获取所述文本特征向量与所述词簇间的杰卡德Jaccard相似度系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团有限公司;中国移动通信集团黑龙江有限公司,未经中国移动通信集团有限公司;中国移动通信集团黑龙江有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110507902.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:PRS资源选择的方法和通信装置
- 下一篇:一种广场智能灯光控制系统