[发明专利]一种Hadoop集群下的用户行为异常检测方法在审
申请号: | 201710384599.7 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107222472A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 郝玉洁;钟德建;王芷若;崔建鹏;陆文斌 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 集群 用户 行为 异常 检测 方法 | ||
1.一种Hadoop集群下的用户行为异常检测方法,其特征在于,它包括以下步骤:
S1:用户行为数据采集,所述用户行为数据包括用户访问Hadoop集群HDFS的审计记录;
S2:数据预处理,针对每一个用户的审计记录,基于一个时间窗口,统计该时间窗口内的用户行为特征,构成一个特征向量,再依次运用于不同的用户和不同的时间窗口,便得到包含多个用户及其不同时段行为特征的特征向量集;
S3:模型训练,分别抽取每个用户的部分特征向量集作为训练数据并构造为样本数据矩阵,对样本数据进行降维处理,得到样本均值和变换矩阵,所述的变换矩阵把样本由原空间映射到主成分子空间;
S4:用户行为异常检测。
2.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的审计记录包括访问日期和时间、用户标识、文件操作命令、客户端IP地址;所述的审计记录通过Hadoop日志管理服务从集群NameNode节点获得。
3.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的用户行为特征,包括该用户在所述时间窗口内的若干条日志记录中,每种文件操作命令出现的次数。
4.根据权利要求4所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的用户行为特征构成的特征向量表示为x=(x1,x2,…,xn),其中n为文件操作命令总数,特征向量的每一维的值代表一种文件操作命令在该时间窗口内出现的次数。
5.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的样本数据降维处理,包括以下子步骤:
S21:提取并统计数据,从数据库中读取审计记录,针对每一个用户的审计记录,基于一个时间窗口,统计该时间内每个文件操作命令出现的次数;
S22:构成特征向量。
6.根据权利要求5所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,该特征向量是基于频域属性构造特征向量,该特征向量一共有13种文件操作命令,每一维的值代表一种文件操作命令在该时间窗口内出现的次数,其中,13维对应HDFS文件操作命令种类数目,该特征向量集既可以作为模型训练数据又可以作为测试数据。
7.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的模型训练包括以下子步骤:
S31:根据抽取的模型训练数据,构造样本数据矩阵;
S32:基于并行化主成分分析求方差矩阵和样本均值,对样本矩阵进行水平分割分为N块,基于MapReduce计算模型求得样本均值和协方差矩阵;
S33:计算协方差矩阵的特征值和对应的特征向量,按照方差贡献率确定主成分数量k;
S34:根据前k大特征值对应的特征向量构造变换矩阵,样本矩阵与变换矩阵的乘积即为主成分矩阵;
S35:把得到的样本均值和变换矩阵存入模型数据库,供异常检测使用。
8.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的用户行为异常检测包括以下子步骤:
S41:针对某一个用户,从测试数据提取出一个特征向量,进行均值调整处理;
S42:计算经过均值调整处理的向量与该向量的主成分重构之间的欧氏距离,如果距离大于预先设定的阈值,则为异常行为;否则,为正常行为。
9.根据权利要求6所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,所述的经均值调整过的向量的主成分重构,是把均值调整过的向量经过训练得到变换矩阵,再映射到主成分子空间,随后利用变换矩阵的转置,把映射后的新向量重构回原来的空间得到的向量。
10.根据权利要求1所述的一种Hadoop集群下的用户行为异常检测方法,其特征在于,对用户行为的异常检测分为两种情况进行测试:
(1)如果要测试检测方法的误检率,则把一个用户的特征向量数据抽取部分数据作为训练数据,剩下的部分作为测试数据;
(2)如果要测试检测方法的检测率,则把一个用户的特征向量数据抽取部分数据作为训练数据,抽取另外其他用户的部分作为测试数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384599.7/1.html,转载请声明来源钻瓜专利网。