[发明专利]一种网络异常数据的关联性分析方法有效
申请号: | 201810402502.5 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108595667B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 姜文婷;亢中苗;陈燕;施展;赵瑞峰;陈飞鹏 | 申请(专利权)人: | 广东电网有限责任公司;广东电网有限责任公司电力调度控制中心 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F21/57 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510050 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 异常 数据 关联性 分析 方法 | ||
1.一种网络异常数据的关联性分析方法,其特征在于:包括以下步骤:
S1:对电力通信网络的异常数据进行采集;
S2:对采集到的异常数据进行预处理,得到预处理后的异常数据;
S3:根据预处理后的异常数据,根据主成分分析计算权值;
S4:计算异常数据的相似度,生成事务数据库;
S5:根据生成的事务数据库,基于Apriori算法完成关联性分析;
其中,所述步骤S3包括:
S31:数据标准化处理:数据的标准化是将数据按比例缩放,令数据落入一个小的特定区间,主要用于去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;这里采用极值标准化法,即0-1normalization,是对原始数据的线性变换,转换函数具体表达式如下:
其中,Xmax为样本数据的最大值,Xmin为样本数据的最小值,X为采集到的异常数据;X*为转换后的异常数据;
S32:对X*进行主成成分分析,其计算步骤如下:
计算相关系数矩阵R,计算公式为:
其中,rij(i,j=1,2,...,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为
其中,表示X矩阵行和列上的平均值,由此可以得到A、B1、B2、C1、C2、D1、D2的相关系数矩阵;
计算特征值与特征向量,解特征值方程:
|λI-R|=0
用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列λ1≥λ2≥...≥λp≥0,分别求出对应与特征值λi的特征向量ej(i=1,2,...,p),要求||ei||=1,即其中eij表示向量ei的第j个分量;
计算主成分贡献率及累计贡献率,计算公式为:
贡献率:
累计贡献率:
其中,λi,λk非负特征向量,i=1,2,...,p,p表示非负特征根的个数;
计算主成分负载lij,计算公式为:
其中,ei,j为单位向量分量,根据lij可以得到成分矩阵Z,各个主成分得分如下:
确定主成分分析的权重:用主成分分析确定权重,指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均归一化,因此,要确定指标权重需要三个步骤:
计算主成分线性组合中的系数:根据主成分荷载得到的成份矩阵中的载荷数/特征值的开方,即得到了主成分线性组合的系数,其中,主成分的个数由各个主成分得分具体分析得到,设为n(n≤7),即得到了n组数据A、B1、B2、C1、C2、D1、D2的线性组合系数F,记为
其中,x1,x2,...,x7对应于A、B1、B2、C1、C2、D1、D2;
计算主成分的方差贡献率,方差贡献率越大,则该主成分的重要性就越强,因此,将方差贡献率看做成不同主成分的权重,将原有数据用n个主成分代替,根据主成分在主成分方差贡献率中的比重对线性组合中的系数做加权平均,
F=c1F1+c2F2+...cnFn
其中,c1,c2,...,cn为F1,F2,...,Fn占方差贡献率的比例,
结合主成分线性组合中的系数,得到:
F=w1x1+w2x2+...+w7x7
其中,w1,w2,...,w7即为权重,并将w1,w2,...,w7进行归一化处理;
在利用主成分分析的方法确定权重的同时,设置数据变量的权重阈值,为0.05,当数据变量的权重低于权重阈值时,认为该数据变量与异常流量数据分析关联度低,则删除此数据变量;
所述步骤S4包括以下步骤:
计算异常流量数据间的相似度:
时间信息的相似度δ1:
其中,t1,t2是异常流量A、B检测时刻,Twin是基准设计时间;
主机相关信息的相似度δ2:
其中,S1,S2为异常流量A、B主机重要等级,NS为重要等级数;
主机安全防等级的相似度δ3:
其中,C1,C2为异常流量A、B主机防护等级,NC为总防护等级数;
运行服务总数的相似度δ4:
其中,I1,I2为异常流量A、B主机上运行的服务总数,NI为主机上运行服务的总重要等级数;
运行服务重要性等级的相似度δ5:
其中,l1,l2为异常流量A、B主机上运行的服务的重要等级,Nl为主机上运行服务的总重要等级数;
IP相关信息的相似度δ6:设两异常流量设备A、B的IP地址二进制数分别为IP1和IP2,对IP地址取异或运算得到diff=IP1 XOR IP2,从diff左边开始扫描,遇到1停止,定义变量p为扫描中遇到0的个数,则IP相似度函数为:
根据所得到的相似度函数分别计算源IP地址δ6;
计算异常流量的相似度η:
得到每条异常流量之间的相似度,从而以对异常流量数据中变量的操作,转化到了对每条异常流量之间的操作;
根据相似度生成事务型数据库:
设置相似度阈值:根据计算得到的异常流量间的相似度,设置相似度阈值;根据实验得到的结果进行分析,设置相似度阈值分别为最大阈值0.5,最小阈值0.1和丢弃阈值0.05;
根据相似度阈值生成事务型数据库D:其中当相似度低于0.05时,认为异常流量之间的相似度过低,不存在可能的关联度;当两者相似度高于0.5时,认为关联度较高,可以作为2个异常流量的事务数据项;在得到相似度高于0.5事务数据项的基础上,如果这两者与另外一个异常流量的相似度都高于0.48,则会生成3个异常流量的事务数据项,以此类推,在事务数据项中每增加一个异常流量,所要求的相似度会对应减少0.02,但当相似度低于0.1时事务数据项不能再增加异常流量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司;广东电网有限责任公司电力调度控制中心,未经广东电网有限责任公司;广东电网有限责任公司电力调度控制中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810402502.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置