[发明专利]一种Hadoop集群下的用户行为异常检测方法在审
申请号: | 201710384599.7 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107222472A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 郝玉洁;钟德建;王芷若;崔建鹏;陆文斌 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 集群 用户 行为 异常 检测 方法 | ||
技术领域
本发明涉及一种用户行为异常检测方法,尤其是一种基于Hadoop集群下的用户行为异常检测方法。
背景技术
近年来,Hadoop平台作为一个优秀的分布式计算系统,在企业大规模数据处理方面扮演着越来越重要的角色。然而,由于Hadoop在开发之初并未考虑安全因素,虽然后续加入了一些安全机制,但Hadoop的安全审计机制、访问控制机制和身份认证机制等都属于被动的静态安全技术,不能对用户行为活动进行监控,这就导致容易遭受隐藏的安全攻击。比如:非法用户盗取合法用户的账号和密码,获得相关权限非法访问数据;在恶意入侵、维修和介质丢失时容易产生数据泄露问题,集群的数据安全难以得到保障。数据是信息的载体,一旦遭遇数据灾难,可能给用户造成不可估量的损失。因此,需要对用户的数据访问行为建立有效的监控,及时的发现异常行为,保障Hadoop集群的数据安全。
在基于用户行为活动的监控方面,国内研究相对较少。Ashish Kamra等人提出了一种针对关系型数据库访问模式的异常检测方法,它是基于用户的SQL查询日志,但这种方法只针对关系数据库,不适用于大数据平台的用户行为监控;Mohiuddin Solaimani等人提出了一种基于Spark的虚拟机性能异常检测框架,目的是通过对虚拟机性能异常检测发现哪些用户占用大量资源,造成资源的共享不均衡影响集群运行效率,但Spark是基于内存的计算,当数据规模很大或是中间结果超过内存大小时就无法处理;刘朋提出了一个针对数据库的抽象架构和通用的异常行为检测解决方法,但却没有给出具体的算法;Fredrik Valeur等人提出了一种基于机器学习的SQL攻击行为检测方法,但只针对基于网络的后端数据库。
传统的用户行为异常检测方法主要是在数据库以及集群性能异常方面。数据库一般是针对关系型数据库等,在Hadoop集群分布式环境下无法适用,而集群性能异常在Hadoop平台本身的负载均衡等机制下,表现并不突出,异常检测的结果正确性不高。此外,Hadoop集群下的数据规模通常很大,基于传统的主成分分析的模型训练算法,效率相对较低。
因此本发明的优化方法将对用户的数据访问行为建立有效的监控,及时的发现异常行为,保障Hadoop集群的数据安全,并且还通过并行化主成分分析算法提高模型训练效率,解决传统模型训练效率低的问题。
发明内容
本发明的目的在于克服现有的技术不足,提供一种Hadoop集群下的用户行为异常检测方法,不仅能够解决在Hadoop集群下针对用户访问HDFS数据的异常行为监控问题,而且还对传统的主成分分析算法进行了并行化处理,解决模型训练效率较低的问题。
本发明的目的是通过以下技术方案来实现的:一种Hadoop集群下的用户行为异常检测方法,包括以下步骤:
S1:用户行为数据采集:通过Hadoop日志管理服务(Log4j)从集群NameNode节点获得HDFS的审计日志并存储于数据库;
S2:数据预处理;
S3:模型训练:抽取其中一个用户的部分特征向量集作为训练数据并构造为样本数据矩阵,基于本发明提出的并行主成分分析算法对样本数据进行降维处理,得到样本均值和变换矩阵,存入该用户模型库。其他用户的模型训练方法相同。其中变换矩阵主要完成把样本由原空间映射到主成分子空间的功能;
S4:用户行为异常检测:针对某一个用户,把该用户当前的行为模式(特征向量)与该用户模型训练得到的历史行为模式做匹配,如果不匹配,则为异常行为。
所述的用户行为数据采集,是利用Hadoop日志管理服务,并且默认Hadoop已经集成了Apache的开源项目Log4j,通过Log4j日志管理服务从集群NameNode节点获得了HDFS的审计日志并存储于数据库;
所述的用户行为数据是用户访问HDFS行为时的审计记录,记录包括访问日期和时间、用户标识、文件操作命令、客户端IP地址;
所述的数据预处理,包括以下步骤:
S21:提取并统计数据,从数据库中读取审计记录,针对每一个用户的审计记录,基于一个时间窗口,统计该时间内每个文件操作命令出现的次数;
S22:构成特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384599.7/2.html,转载请声明来源钻瓜专利网。