[发明专利]一种基于业务路径和频度矩阵的动态关联故障挖掘方法在审
申请号: | 201710710411.3 | 申请日: | 2017-08-18 |
公开(公告)号: | CN107579844A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 郑小禄;黄宁;胡波;仵伟强 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京慧泉知识产权代理有限公司11232 | 代理人: | 王顺荣,唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于业务路径和频度矩阵的动态关联故障挖掘方法一、构建动态关联故障的数据模型;二、设计基于极大业务路径的分块挖掘策略;三、设计基于频度矩阵的扫描策略;四、BFM算法整体设计。本发明通过构建动态关联故障数据模型和分析判定特征,明确了挖掘对象,给出了挖掘效率的优化空间;分析机载网络故障基于业务路径的关联特征,给出避免噪声组合的分块策略,算法在搜索迭代之前就过滤掉大部分噪声信息;将各分块分解为特征向量和频度矩阵,结合矩阵运算特点和频繁项集性质,给出大幅降低外存扫描的循环策略,极大减少算法循环次数和对比计算;步骤四,综合以上策略设计了BFM算法。本发明方法,能有效提高频繁项集的挖掘速率。 | ||
搜索关键词: | 一种 基于 业务 路径 频度 矩阵 动态 关联 故障 挖掘 方法 | ||
【主权项】:
一种基于业务路径和频度矩阵的动态关联故障挖掘方法,特征在于:该方法包括如下步骤:步骤一、构建动态关联故障的数据模型;步骤101、明确动态关联故障定义机载网络动态关联故障的定义为:机载网络运行中以航电业务为流程的各应用间存在动态逻辑连接关系,导致在一定试验应力下,某故障发生时,在当前业务路径上关联触发新的故障,且随着业务路径的动态关联,故障呈现出动态依赖和不断传播的特点;业务路径、动态性、关联性分别定义如下:业务路径:在一定试验应力下,航电业务流程上各应用逻辑连接关系;动态性:同样试验应力下,故障产生与业务路径密切相关,业务路径的动态性导致故障的动态性;关联性:同一测试业务中多个故障可能由同一故障导致,即同样试验应力和同样业务路径的故障之间具有关联性;步骤102、确定动态关联故障的判定特征根据步骤101分析,机载网络故障具有基于业务路径的动态关联特点,其关联规则与故障属性“业务路径”和“试验应力”密切相关,故给出如下判定特征:特征1:业务路径不相交,试验应力不同的两个故障,不可能是直接关联触发的;特征2:间接关联触发的两个故障,可通过有限个直接关联触发的故障对,发现其关联关系;步骤103、故障数据预处理与模型构建故障主要包括故障现象、故障设备、业务路径、应力条件等属性,根据挖掘方法需求,构建故障信息模型F如下:F={S,X,N,Δ}其中,S={S1,S2,...Si,...}为故障属性“试验ID”,X={X1,X2,...Xi,...}为故障属性“试验应力”,I={A,B,...}为“故障现象”,N={N1,N2,...,Ni,...}为故障属性“业务路径”,Ni=(nj,nk,...)为故障i的业务路径,其中nj,nk∈n,n={1,2,...}为故障节点设备;各参数相应序列为原始数据库中对应字段的不同值按字典排序映射形成;步骤104、分析挖掘方法中,利用判定特征降低噪声组合的可行性根据步骤102给出的判定特征,可以提前判定两故障之间是否可能存在动态关联关系,从而在频繁项挖掘的连接步中避免噪声的组合;以一次试验作为一项事务,形成交易型数据库‑事务集,通过演示由L1生成L2的过程,证明利用步骤102中的特征1,可以大幅提高挖掘效率的可行性;设最小支持度Supmin=2;(1)扫描交易型数据库‑事务集,生成1项频繁集列表L1(2)进行第一次连接步计算,生成2项候选项集C2根据判定特征1,得到故障组合,其业务路径毫无相交,试验应力完全不同,不可能是关联故障,故不可能是频繁项集;这些组合完全是连接步生成的噪声信息;在搜索迭代中,算法每一步都会大量组合生成类似的噪声信息,然后逐个剪枝消除其中大部分,这极大降低了挖掘效率和准确度,这部分噪声是可以避免的;因此,在动态关联故障挖掘中,利用业务路径的判定特征,降低噪声组合是可行的;步骤二、设计基于极大业务路径的分块挖掘策略;步骤201、提出极大业务路径概念极大业务路径:遍历故障库中所有故障的试验应力和业务路径属性后,若业务路径R1~Rn具有包含关系,且试验应力均为Xi,其中Rj包含其余(n‑1)条业务路径,则(Xi,Rj)为一条极大业务路径;定义业务路径向量R2包含R1的运算为R1R2:if(X1=X2)&Len(R1)≤Len(R2),则R1R2;其中,Part(Ri,k)表示向量Ri长度为k的连续片段组成的集合(k≤Len(Ri)),Part(Ri,k)j表示该集合中的第j项(j=1,2,...,Len(Ri)‑k+1);设R1=(1,2,3,4),Len(R1)=4,Part(R1,3)2=(2,3,4),Part(R1,3)={(1,2,3),(2,3,4)},若R2=(2,3),R3=(3,4,5),且X1=X2=X3,则R2@R1成立,R3@R1不成立;上面介绍的的故障数据库在遍历后可生成如下4条极大业务路径:{(X1,(1,2,3)),(X2,(2,3)),(X3,(5,6,7)),(X4,(5,6))}步骤202、明确极大业务路径特性极大业务路径特性:两个直接关联触发的故障,极大概率发生于同一极大业务路径下,并且随着试验进行和故障库增加,这一概率趋向于100%;步骤203、设计分块挖掘策略提出如下分块挖掘策略:(1)生成事务集后,遍历数据库:if:∀i=1,2,...,n,RiRn,then:(Xn,Rn)]]>得到极大业务路径集合:{(X1,R1),(X2,R2),...,(Xk,Rk)}(2)利用极大业务路径集合,将数据库分割为k块,(3)各分块挖掘操作隔离进行;事务频度计算,只在同一事务集分块内累加;步骤三、设计基于频度矩阵的扫描策略;步骤301、构建频度矩阵和特征向量特征向量:设某分块事务集Ti包含m个互不相同的事务t1,t2,...,tm,由n个互不相同的项I1,I2,...,In构成,其中{ti},{Ii}均按字典排序,则称n维向量(I1,I2,...,In)为Ti的特征向量,记为Iti;以A,B,C等表示故障项,故Ii=A,B,C...;频度矩阵:设某分块事务集Ti包含m个互不相同的事务t1,t2,...,tm,其特征向量为Iti=(I1,I2,...,In),则存在唯一矩阵Qi=(qjk)n×m,使得Iti×Qi=(I1,I2,...,In)q11q12q1mq21q22q2mqn1qn2qnm⇔Ti]]>则称Qi为Ti的频度矩阵;其中qjk∈N表示Ti中第k个事务tk的第j项Ij的频数;因此,一个事务集分块可分解为一个特征向量和一个频度矩阵;分块后,在搜索迭代中,每个分块只需扫描一次特征向量,并进行一次矩阵运算即可;下面所示的事务集分块,利用频度矩阵可以将各块分解,得到事务集,特征向量,频度矩阵;即,事务集T1的特征向量为(A,B,C),频度矩阵为事务集T2的特征向量为(A,D,E),频度矩阵为事务集T3的特征向量为(A,F,G),频度矩阵为其中:观察矩阵可以发现,每行相加即Count(C1),第二、三列即Count(C2),第一列即Count(C3);因此频度矩阵既保留了频度信息,又能体现各项间的关联信息,在扫描中无需遍历数据库,逐个进行对比运算,只需根据矩阵运算,即可完成扫描;步骤302、分析频度矩阵性质频度矩阵具有如下性质:(1)频度矩阵第i行之和等于特征向量第i项的频度:Σj=1mqij=Count(Ii)]]>(2)频度矩阵归一化处理:Qi=q11q12q1mq21q22q2mqn1qn2qnm=(λ1e11e21en1,λ2e12e22en2,,λme1me2menm)]]>qij=λjeij,eij=01,λj∈N+]]>其中,频度矩阵第j列系数λj等于第j列对应事务的频度:λj=Count(tj),tj=(I1,I2,...,In)×e1je2jenj]]>事务集分块T1:110112102=(1111,1110,2011)]]>Count(ABC)=1,Count(AB)=1,Count(BC)=2可以看出,利用频度矩阵及其运算特点,可以大幅简化循环扫描中的对比计算;步骤303、分析频繁项集性质在频繁项集挖掘中,存在如下性质:(1)任何频繁项集的非空子集也是频繁的,非频繁项集的超集也是非频繁的;推论1A:若某事务集分块中所有项目的频度均低于最小支持度,则该事务集分块中没有频繁项集,可直接删除该事务集分块;推论1B:若某事务集分块中存在某项目的频度低于最小支持度,则包含该项目的任意事务均是非频繁的,可直接将该项目从事务集分块中删除;(2)若某事务长度小于k,则该事务不支持Lk+1;推论2A:若某事务集分块的特征向量长度小于k+1,则该事务集分块的最大频繁项集为Lk,在之后的循环中可直接删除该事务集分块;推论2B:若某事务集分块中存在某事务长度小于k+1,则在该事务集分块生成Lk之后的循环中可直接删除该事务;步骤304、设计扫描策略基于步骤301、302、303给出的频度矩阵和频繁项集性质,本步骤通过设计五条扫描策略,以大幅提高挖掘中的扫描速率;(1)设计扫描策略1~4:利用最小支持度压缩频度矩阵和特征向量,从而压缩事务集分块,扫描策略1:根据推论1A,若某事务集分块的频度矩阵每行之和均小于Supmin,则直接删掉该事务集分块:if:maxi(Σj=1mqij)<Supmin,qij∈Qk,then:deleteTk]]>扫描策略2:根据推论1B,若某事务集分块有一项频度低于最小支持度,即频度矩阵某行之和小于Supmin,则该分块特征向量删除该项,频度矩阵删除该行,从而压缩该事务集分块:if:∃i≤n,Σj=1mqij<Supmin,then:deleteIi,qij|j≤m]]>扫描策略3:根据推论2A,若某事务集分块的特征向量长度小于k+1,则在生成Lk后,直接删掉该事务集分块:生成Ck+1:扫描策略4:根据推论2B,若某事务集分块频度矩阵分解后的某列之和小于k+1,则在生成Lk后,直接删掉该列:生成Ck+1:(2)设计扫描策略5:传统算法在计算Count(Ck)时需循环扫描事务集,引入频度矩阵后,可利用矩阵特性,跳过对比扫描工作,直接用乘积获得结果;定义函数jo(x):jo(x)=0,if:x=2k+1,k=0,1,2,...x,if:x=2k,k=0,1,2,...]]>扫描策略5:根据步骤302给出的频度矩阵性质,在计算某事务集分块的Count(si),si∈Ck时,将si按特征向量分解为频度向量,频度向量与频度矩阵的乘积可得到Count(si),无需循环对比:∀si∈Ck,si=(I1,I2,...,In)gi1gi2gin]]>Count(si)=12jo(gi1gi2ginTe11e12...e1me21q22...e2men1en2...enm)λ1λ2λn=12λ1jo(gi1gi2ginTe11e21en1)++12λmjo(gi1gi2ginTe1me2menm)]]>事务集分块T1,计算Count(AC),AC∈C2:AC⇔(A,B,C)101]]>Count(AC)=12jo(101T110111101)112=12(1×jo(2),1×jo(1),2×jo(1))=12(1×2,1×0,2×0)=1]]>利用扫描策略5,在循环扫描时直接进行乘积运算,无需逐个扫描频繁集的频数,能有效提高挖掘效率;步骤四、BFM算法整体设计步骤401、算法流程描述算法首先遍历数据库,生成极大业务路径,并利用极大业务路径将数据库分块;根据频度矩阵定义,将各分块的故障项集分解为特征向量和频度矩阵;然后利用扫描策略1、2进行搜索前的简化,根据分块矩阵的行和,通过扫描策略1删减不满足条件的分块,通过扫描策略2将分块矩阵降阶;首先生成各分块的1项频繁集,开始循环搜索迭代;利用扫描策略3直接跳过不满足条件的分块循环,利用扫描策略4将频度矩阵进一步降阶优化;优化后的分块进行连接步和剪枝步生成候选项集,通过扫描策略5计算候选项集频数,进而生成频繁集;分块内循环在当前频繁项集为空集时结束,分块间循环在所有分块完成后结束,最终返回所有频繁项集;图9所示为BFM算法流程;步骤402、算法伪码输入:事务数据库D,最小支持度Supmin输出:所有的频繁项集L。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710710411.3/,转载请声明来源钻瓜专利网。
- 上一篇:组合式公告栏
- 下一篇:一种便于使用的广告牌