[发明专利]一种基于特征选择耦合相似度的数据异常检测方法在审
| 申请号: | 202110205936.8 | 申请日: | 2021-02-24 |
| 公开(公告)号: | CN112926650A | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 郭鹏飞;周新宇 | 申请(专利权)人: | 辽宁工程技术大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 125105 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 选择 耦合 相似 数据 异常 检测 方法 | ||
1.一种基于特征选择耦合相似度的数据异常检测方法,其特征在于:该方法包括以下步骤:
步骤1:特征选择,去除数据中不相关的特征,去掉当前与学习任务无关的特征;
采用后向特征子集搜索方法,即从全集开始,每次去掉一个特征,形成多个子集;给定数据集D,U是数据集D中数据对象的集合,C是每个数据对象所包含的属性集合,即U={u1,u2,...,um},C={c1,c2,...,cn},U和C非空,m和n根据实际给定的数据集而定,V是所有属性值的集合,对属性子集A,根据其取值将D划分为G个数据子集{D1,D2,...,DG},每个子集中的样本在A上的取值相同,根据下式计算属性子集A的信息增益;
其中信息熵定义为:
其中,pr是D中第r类样本所占的比例,r=1,2,...,|y|,表示数据集中共有|y|类样本,y是样本标记信息;
把公式(1)作为所选择的特征子集的评估标准,信息增益Gain(A)越大,意味着特征子集A包含的有助于分类的信息越多,于是,对每个候选特征子集,基于数据集D来计算其信息增益,以此作为评价准则;最优特征子集需满足的优化函数是:
max Gain(A) (3)
随着特征的不断减少,当子集为空或者信息增益不在增加时,选择信息增益最大的属性子集A’作为最优特征子集,最优特征子集包括的特征数为o,o≤n;
步骤2:在前面特征选择所选出的最佳特征子集上进行耦合相似性计算;
将距离度量转化为相似性度量的方法是:
s(ux,uy)=1/(1+δ(ux,uy)) (4)
其中,δ(ux,uy)是数据对象ux和数据对象uy之间的距离,s(ux,uy)是数据对象ux和数据对象uy之间的相似性,其中1≤x≤m,1≤y≤m,x=y时,两个数据对象的相似性为1;
属性值的条件概率定义:给定属性ck的属性值vk,ck属于C,1≤k≤n,对象ux的第j个属性的属性值vjx,ux属于U,则vk关于vjx的条件概率p(vk|vjx)定义为:
p(vk|vjx)=|I(vjx,vk)|/|I(vjx)| (5)
属性内相似性定义:数据对象ux和数据对象uy在同一个属性cj上的两个属性值vjx和vjy之间的属性内相似性定义如下:
其中,log是自然对数,p表示在属性cj上属性值为vjx的数据对象个数加1,1≤j≤n,q表示在属性cj上属性值为vjy的数据对象个数加1;公式(6)反映出不同的出现频率表示属性值重要性的不同级别;属性值vjx和属性值vjy的出现次数均大于等于1,小于等于m,它们之间的相似性取值范围是(0,1];如果属性值vjx和属性值vjy不相等,则当vjx和vjy出现次数相同时,它们的相似性达到最大值;
属性值共现条件概率的交集定义:属性cj的属性值vjx和vjy与属性ck(1≤j≤n,j≠k)的共现值的共现条件概率的交集定义如下:
Wk=vk(I(vjx))∩vk(I(vjy)) (7)
其中,vk(I(vjx))是所有在I(vjx)中的对象在属性k上的属性值集合,Wk包含着属性ck与vjx和vjy都共现的所有属性值;
根据Jaccard距离和式(4),基于IRSI和Wk用Jaccard相似性定义属性间相似性;
Jaccard距离如下所示:
δJ(ux,uy)=1-J(ux,uy) (8)
其中,J(ux,uy)定义为:
J(ux,uy)=∑fmin(uxf,uyf)/∑fmax(uxf,uyf) (9)
其中,ux=(ux1,ux2,...,uxn)和uy=(uy1,uy2,...,uyn)这两个n维向量都是实数向量,1≤f≤n;
一个属性关于另一个属性的属性间相似性定义:属性cj的两个属性值vjx和vjy关于另一个属性ck的属性间相似性定义如下:
其中,e=max(pxi,pyi),l=min(pxi,pyi);pxi=p(wki|vjx),pyi=p(wki|vjy),它们是wki关于属性值vjx和vjy的条件概率,pxi和pyi由式(5)进行计算,wki是Wk中的第i个元素,如果Wk是空集,则SIek|j=a,a是一个趋近于0的正数;
属性间相似度定义:属性cj的两个属性值vjx和vjy的属性间相似度为:
其中,γk|j表示每个属性ck到cj的权重,γk|j∈[0,1],γk|j表示的是属性cj和属性ck之间的关系;
属性间的相似性计算出来后,定义耦合度量属性值相似性;
耦合度量属性值相似性定义:属性cj的属性值vjx和vjy之间的耦合度量属性值相似性定义为:
Sj(vjx,vjy)=αSIaj+(1-α)SIej (12)
其中,α∈[0,1],不同的α值反映了属性内相似性和属性间相似性在形成整体对象相似性中的不同比例;较大的α表示属性内耦合在对象相似性中起着更重要的作用,较小的α表示属性间耦合在对象相似性中起着更重要的作用,即属性cj和其他属性之间的耦合比cj中值之间的耦合起着更重要的作用;当α=0.5时,Sj是SIaj和SIej的调和平均;
耦合度量相似性定义:两个对象ux和uy之间的相似性S(ux,uy)定义为:
其中,βj表示属性cj的耦合度量属性值相似性的权重,βj∈[0,1]且
步骤3:聚类异常点检测;
根据计算出的对象间相似性,结合聚类算法进行训练,得到聚类结果,将聚类得出的小类内的数据点作为异常值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205936.8/1.html,转载请声明来源钻瓜专利网。





