[发明专利]一种基于Hadoop的安全日志聚类方法与追责系统在审
申请号: | 201711101507.6 | 申请日: | 2017-11-10 |
公开(公告)号: | CN110019070A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陆勰;李明珍 | 申请(专利权)人: | 北京安码科技有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 信息安全领域 安全管控 安全日志 安全事件 并行计算 迭代计算 聚类算法 日志处理 数据挖掘 态势感知 异常事件 并行化 准确率 管控 聚类 算法 溯源 威胁 改进 研究 | ||
本发明属于的技术领域是数据挖掘与信息安全领域。发明公开一种海量的安全管控日志的追责系统,通过研究海量管控的动态日志,建立一种切实可行的追责系统,实现对异常事件的追责与溯源,对安全事件的威胁态势感知,特别是涉及一种聚类算法K‑Means算法的改进,结合Map/Reduce并行计算的特点,实现K‑Means并行化迭代计算,提高了日志处理的速度、准确率。
技术领域
本发明属于的技术领域是一种基于Hadoop的安全日志聚类方法与追责系统。其属于数据 挖掘与信息安全领域,发明的基础是基于云计算环境,Hadoop架构的云计算模式。涉及一种 海量的安全管控日志的追责,特别是涉及一种日志聚类算法K-Means算法的改进。
背景技术
云计算承载着巨大的数据资源,大数据的持续增长,给物理设备带来了严峻的考验,如 何存储、处理、分析等这些储蓄膨胀的数据越来越成为计算机及相关领域关注的热点,应运 而生的开源Hadoop大数据处理架构成为各行业的热宠,Hadoop平台具有高效、可靠、扩展 性强等特点,它的两个主要组成部分是Hadoop分布式文件系统HDFS和并行处理模型Map Reduce,通过从HDFS中提取文件,进入Map Reduce迭代处理,完成海量数据的处理。Hadoop 中核心组件Map/Reduce的高效的处理能力,整个处理阶段可以大概分为3阶段,第一阶段通 过从HDFS(文件存储系统)提取被分割成固定大小的数据块(通常是64M)进入Map,Map对 其进行首次处理,形成(Key,value)的键值对,进入第二阶段即中间阶段是combine,该阶 段主要是完成对键值对的排序处理,该阶段需要占用大量的I/O,最后一阶段为经过Combine 处理后的中间值进入Reduce阶段,Reduce按照输出要求处理数据,输出结果。
物以类聚,人以群分,聚类思想根深蒂固,流行于大数据挖掘,属于无监督的机器学习, 具有多种方式的分类方法,一般有基于划分的聚类,基于网格的、基于密度等,一般按照聚 类对象的形状等选取恰当的方法,也可以使用融合的方式,针对我们所要研究的日志特性(非 结构化文本),选取了具有原理简单、算法容易的基于划分的典型代表K-Means算法,其原理 是通过不断计算各样本点到聚类中心的距离,根据远近把数据分到事先指定(一般随机输入 的K值)的K类中,针对容量为n的S集数据,其过程如下:
输入一个K值(一般按照预想输出类指定)
从样本集S中随机选取K个值作为初始聚类中心,计算剩余的样本值到各初始聚类中心 的距离,按照距离远近进行划分到最近的簇类,不断的迭代计算,直到收敛。
K-Means的迭代过程中,主要涉及两大研究方向,第一K值的选择,随机选择K值,容易影响聚类的效果,第二初始聚类中心的选择,存在选择孤立点或者噪声点作为初始聚类中 心的风险,造成局部最优,针对其缺陷,近年来的研究热点也就主要集中在这两方面。
鉴于Hadoop的强大的云计算能力,K-Means算法简单易实现的特点,利用Map/Reduce 的并行计算能力,把K-Means与Map/Reduce结合起来,极大的提高了云计算能力,居于此, 结合本项目研究对象海量管控日志,通过改进K-Means算法,并与Map/Reduce结合能够提高 日志的处理能力,降低漏报率与误报率,进一步实现对信息泄漏、进程阻断,网络截流等管 控行为的发现和还原,并依据统一的规范形成追责证据。搭建一个具有对动态信息追责溯源 的系统对提高网络安全性,提高可信云的运行环境,显得必要。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安码科技有限公司,未经北京安码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711101507.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志处理方法、装置及设备
- 下一篇:数据处理方法及装置