[发明专利]一种日志数据处理方法及装置在审

申请号：	202110507902.4	申请日：	2021-05-10
公开（公告）号：	CN115408353A	公开（公告）日：	2022-11-29
发明（设计）人：	刘芳;于涛;李方岩	申请（专利权）人：	中国移动通信集团有限公司;中国移动通信集团黑龙江有限公司
主分类号：	G06F16/18	分类号：	G06F16/18;G06F40/284;G06F40/30;G06K9/62
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	陈新生
地址：	100032 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种日志数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种日志数据处理方法及装置。该方法包括：基于加权相似度的聚类算法，根据待处理日志数据构建文本向量；对所述文本向量进行聚类，获取对应的日志聚类结果；根据所述日志聚类结果，生成日志聚类模板。本发明提供的日志数据处理方法及装置，可以减少日志数据过滤时间，同时保证日志数据的可靠性。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种日志数据处理方法及装置。

背景技术

随着大数据时代的飞速发展，服务器等设备的数量迅速增长，其所产生的数据日志越来越多，业务系统、应用支撑、硬件设备均会产生大量的数据日志，当存在大量不同型号的服务器和网络设备、各种各样的虚拟化方案、不同的操作系统、多样化的应用软件和数据库时，会造成大量数据日志之间的互相递进、堆叠。现有技术对日志数据进行分析方案如下：

(1)局部语料库聚类文本：基于Word2vec等词向量模型得到单词的词向量进行文本聚类。由于不能对整个语料库数据进行统计，仅通过单词局部上下文窗口内的词语对模型进行训练，故通常会存在文本向量维度过高的问题，且忽略词语本身的含义以及词语之间的相互联系，导致最终得到的文本向量缺少语义信息，准确度不高。

(2)面对海量数据的聚类算法：采用传统DBSCAN等聚类算法随着数据规模的扩大，执行时间会很长，并且产生过量的簇。DBSCAN算法的主要阀值参数难以确定，且时间复杂度过高，导致聚类的效果不理想，当数据规模增大时，执行效率低。

(3)实时数据相似度计算方法：传统文本聚类方法中，常常采用直接对文本数据进行相似度计算的算法，例如编辑距离和字面距离等，这些算法对句子仅能在字本位进行比较，不能很好对句子的语义内容进行区别，使得相似语义不同字面表达的句子难以有效形成聚类，最终影响了分析结果，并不能灵活处理数据。

发明内容

本发明提供一种日志数据处理方法及装置，用以解决现有技术中日志数据聚类效率低，准确度不高的技术问题。

本发明提供一种日志数据处理方法，包括：

基于加权相似度的聚类算法，根据待处理日志数据构建文本向量；

对所述文本向量进行聚类，获取对应的日志聚类结果；

根据所述日志聚类结果，生成日志聚类模板。

在一个实施例中，所述基于加权相似度的聚类算法，根据待处理日志数据构建文本向量包括：

通过Glove模型训练预处理后的语料库，获取所述语料库中的词语对应的词向量；

根据所述词向量获取词向量模型；