[发明专利]一种基于特征选择耦合相似度的数据异常检测方法在审

申请号：	202110205936.8	申请日：	2021-02-24
公开（公告）号：	CN112926650A	公开（公告）日：	2021-06-08
发明（设计）人：	郭鹏飞;周新宇	申请（专利权）人：	辽宁工程技术大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	125105 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征选择耦合相似数据异常检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于特征选择耦合相似度的数据异常检测方法，其特征在于：该方法包括以下步骤：

步骤1：特征选择，去除数据中不相关的特征，去掉当前与学习任务无关的特征；

采用后向特征子集搜索方法，即从全集开始，每次去掉一个特征，形成多个子集；给定数据集D，U是数据集D中数据对象的集合，C是每个数据对象所包含的属性集合，即U＝{u₁,u₂,...,u_m}，C＝{c₁,c₂,...,c_n}，U和C非空，m和n根据实际给定的数据集而定，V是所有属性值的集合，对属性子集A，根据其取值将D划分为G个数据子集{D¹,D²,...,D^G}，每个子集中的样本在A上的取值相同，根据下式计算属性子集A的信息增益；

其中信息熵定义为：

其中，p_r是D中第r类样本所占的比例，r＝1,2,...,|y|，表示数据集中共有|y|类样本，y是样本标记信息；

把公式(1)作为所选择的特征子集的评估标准，信息增益Gain(A)越大，意味着特征子集A包含的有助于分类的信息越多，于是，对每个候选特征子集，基于数据集D来计算其信息增益，以此作为评价准则；最优特征子集需满足的优化函数是：

max Gain(A) (3)

随着特征的不断减少，当子集为空或者信息增益不在增加时，选择信息增益最大的属性子集A’作为最优特征子集，最优特征子集包括的特征数为o，o≤n；

步骤2：在前面特征选择所选出的最佳特征子集上进行耦合相似性计算；

将距离度量转化为相似性度量的方法是：

s(u_x,u_y)＝1/(1+δ(u_x,u_y)) (4)

其中，δ(u_x,u_y)是数据对象u_x和数据对象u_y之间的距离，s(u_x,u_y)是数据对象u_x和数据对象u_y之间的相似性，其中1≤x≤m，1≤y≤m，x＝y时，两个数据对象的相似性为1；

属性值的条件概率定义：给定属性c_k的属性值v_k，c_k属于C，1≤k≤n，对象u_x的第j个属性的属性值v_jx，u_x属于U，则v_k关于v_jx的条件概率p(v_k|v_jx)定义为：

p(v_k|v_jx)＝|I(v_jx,v_k)|/|I(v_jx)| (5)

属性内相似性定义：数据对象u_x和数据对象u_y在同一个属性c_j上的两个属性值v_jx和v_jy之间的属性内相似性定义如下：

其中，log是自然对数，p表示在属性c_j上属性值为v_jx的数据对象个数加1，1≤j≤n，q表示在属性c_j上属性值为v_jy的数据对象个数加1；公式(6)反映出不同的出现频率表示属性值重要性的不同级别；属性值v_jx和属性值v_jy的出现次数均大于等于1，小于等于m，它们之间的相似性取值范围是(0，1]；如果属性值v_jx和属性值v_jy不相等，则当v_jx和v_jy出现次数相同时，它们的相似性达到最大值；

属性值共现条件概率的交集定义：属性c_j的属性值v_jx和v_jy与属性c_k(1≤j≤n，j≠k)的共现值的共现条件概率的交集定义如下：

W_k＝v_k(I(vjx))∩v_k(I(vjy)) (7)

其中，v_k(I(vjx))是所有在I(v_jx)中的对象在属性k上的属性值集合，W_k包含着属性c_k与v_jx和v_jy都共现的所有属性值；

根据Jaccard距离和式(4)，基于IRSI和W_k用Jaccard相似性定义属性间相似性；

Jaccard距离如下所示：

δ_J(u_x,u_y)＝1-J(u_x,u_y) (8)

其中，J(u_x,u_y)定义为：

J(u_x,u_y)＝∑_fmin(u_xf,u_yf)/∑_fmax(u_xf,u_yf) (9)

其中，u_x＝(u_x1,u_x2,...,u_xn)和u_y＝(u_y1,u_y2,...,u_yn)这两个n维向量都是实数向量，1≤f≤n；

一个属性关于另一个属性的属性间相似性定义：属性c_j的两个属性值v_jx和v_jy关于另一个属性c_k的属性间相似性定义如下：

其中，e＝max(p_xi,p_yi)，l＝min(p_xi,p_yi)；p_xi＝p(w_ki|v_jx)，p_yi＝p(w_ki|v_jy)，它们是w_ki关于属性值v_jx和v_jy的条件概率，p_xi和p_yi由式(5)进行计算，w_ki是W_k中的第i个元素，如果W_k是空集，则S_Iek|j＝a，a是一个趋近于0的正数；

属性间相似度定义：属性c_j的两个属性值v_jx和v_jy的属性间相似度为：

其中，γ_k|j表示每个属性c_k到c_j的权重，γ_k|j∈[0,1]，γ_k|j表示的是属性c_j和属性c_k之间的关系；

属性间的相似性计算出来后，定义耦合度量属性值相似性；

耦合度量属性值相似性定义：属性c_j的属性值v_jx和v_jy之间的耦合度量属性值相似性定义为：

S^j(v_jx,v_jy)＝αS_Iaj+(1-α)S_Iej (12)

其中，α∈[0,1]，不同的α值反映了属性内相似性和属性间相似性在形成整体对象相似性中的不同比例；较大的α表示属性内耦合在对象相似性中起着更重要的作用，较小的α表示属性间耦合在对象相似性中起着更重要的作用，即属性c_j和其他属性之间的耦合比c_j中值之间的耦合起着更重要的作用；当α＝0.5时，S^j是S_Iaj和S_Iej的调和平均；

耦合度量相似性定义：两个对象u_x和u_y之间的相似性S(u_x,u_y)定义为：

其中，β_j表示属性c_j的耦合度量属性值相似性的权重，β_j∈[0,1]且

步骤3：聚类异常点检测；

根据计算出的对象间相似性，结合聚类算法进行训练，得到聚类结果，将聚类得出的小类内的数据点作为异常值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学，未经辽宁工程技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110205936.8/1.html，转载请声明来源钻瓜专利网。

上一篇：基于团簇动力学的锆基合金辐照损伤模拟方法及模型系统
下一篇：一种钠硫电池及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于特征选择耦合相似度的数据异常检测方法在审

专利文献下载