[发明专利]基于改进的局部异常因子检测的数据分类方法在审

专利信息
申请号: 201910368828.5 申请日: 2019-05-05
公开(公告)号: CN110083665A 公开(公告)日: 2019-08-02
发明(设计)人: 游子毅 申请(专利权)人: 贵州师范大学
主分类号: G06F16/28 分类号: G06F16/28;G06K9/62
代理公司: 贵阳东圣专利商标事务有限公司 52002 代理人: 袁庆云
地址: 550001 贵州*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于改进的局部异常因子检测的数据分类方法,包括:离群因子检测;相似性度量;初始聚类中心点的选取,通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集;聚类中心的迭代优化。在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1。本发明提高对聚类中心定位以及簇划分的精确度。
搜索关键词: 聚类中心 初始聚类中心 数据分类 异常因子 因子检测 标准化 相似性度量 自适应调整 迭代优化 距离参数 候选集 检测 迭代 离差 算法 改进 筛选 优化
【主权项】:
1.基于改进的局部异常因子检测的数据分类方法,包括以下步骤:(1)离群因子检测根据原始K‑means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:    (I)表示为点p的领域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均值;如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;(2)相似性度量对数据集的每一个属性如公式(II)进行初步的预处理:          (II)其中,max(xij)表示数据第j列的最大值;分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值:  (III)     (IV) 根据公式(V)计算出来的权值计算数据点之间加权欧式距离: (V)(3)初始聚类中心点的选取 挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集,具体步骤如下:Step1:由公式(I)计算出数据中每个数据点的离群因子,并按离群因子值从小到大进行排列形成数据集记为DL;Step2:在DL上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整);Step3:计算数据集F中所有数据的中心点c0,利用相似性度量,找到距离c0最远的数据点c1,把c1记作第一个初始聚类中心点,再次找到距离c1最远的点c2,将c2记作第二个初始聚类中心点,建立集合C={c1,c2};Step4:计算剩余数据对象xj分别到集合C={c1,c2}的加权距离,记作disc1,disc2,…,disci,找到点ci+1=max{min(discj1,discj2,…,discji),i+1≤k,xj∈F},将ci+1记为第i+1个初始聚类中心点,即C={c1,c2,…,ci+1};Step5:重复Step 4,直到找到k个初始聚类中心点;(4)聚类中心的迭代优化 采用离群因子对数据间距离进行加权,具体实现过程如下:Step1:将当前轮k个聚类中心点加入到候选集F中形成新集合F’,计算出F’中每一个对象的离群因子ri(i∈F’),并找出ri的最大值与最小值;Step2:利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ);   (Ⅵ)在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值;Step3: 计算F’中每一个对象xj到聚类中心ci的加权距离disw(xj,ci),然后与离群因子new_ri相乘,见公式(Ⅶ);  (Ⅶ)Step4:计算每个对象xj到聚类中心集C={c1,c2,…,ck}中各点的最小真实距离Min_Dji,并将对象xj归为ci的类中;Step5: 计算同一簇中所有对象的均值作为新的聚类中心,更新聚类中心集;Step6: 重复Step1‑Step 5直到聚类中心不再发生变化;其特征在于:步骤(3)中 Step1的公式(I)计算出数据中每个数据点的离群因子的方法为:通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集,LOF算法的k距离参数由如下公式自适应调整;(Ⅷ)其中, num(dataset)表示集合dataset的数据对象个数,β值可根据实际经验实际地设置为0.03。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州师范大学,未经贵州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910368828.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top