[发明专利]基于改进的局部异常因子检测的数据分类方法在审
申请号: | 201910368828.5 | 申请日: | 2019-05-05 |
公开(公告)号: | CN110083665A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 游子毅 | 申请(专利权)人: | 贵州师范大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 贵阳东圣专利商标事务有限公司 52002 | 代理人: | 袁庆云 |
地址: | 550001 贵州*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类中心 初始聚类中心 数据分类 异常因子 因子检测 标准化 相似性度量 自适应调整 迭代优化 距离参数 候选集 检测 迭代 离差 算法 改进 筛选 优化 | ||
本发明公开了基于改进的局部异常因子检测的数据分类方法,包括:离群因子检测;相似性度量;初始聚类中心点的选取,通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集;聚类中心的迭代优化。在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1。本发明提高对聚类中心定位以及簇划分的精确度。
技术领域
本发明属于数据处理技术领域,具体来说涉及基于改进的局部异常因子检测的数据分类方法。
背景技术
目前,利用聚类分析实现数据的分类已成为数据挖掘领域中必不可少的技术,在商业、保险行业、生物学、电子商务等领域具有广泛的应用前景。
聚类算法种类繁多,包括基于距离划分的K-means算法、基于隶属度划分的FCM模糊聚类等。其中K-means算法具有思路简单、易于实现且聚类速度快的优点,但其聚类中心易受离群点和异常点的影响而导致聚类陷入局部最优。因此,该算法在数据分类上的应用及优化一直备受关注。在已见报道中,唐东凯等[12]针对初始聚类中心的优化提出了改进方案。该方案利用各数据的离群因子缩小初始聚类中心的候选集,缓减了离群点对选取初始聚类中心的干扰。Mahdi Hashemzadeh等使用集群加权的方法减轻FCM的初始化灵敏度,并提出自动局部特征加权方法适当地加权每个簇的特征,以提高聚类的准确率。Teng Li等通过潜变量(MKKLV)算法开发并提出了一种多核k-means聚类,可以针对每个样本自适应地调整基础核。Ravi Sankar等提出了利用信息熵的相似系数分析k-modes算法的时间复杂度,以在保持k-modes算法的可扩展性同时提高了聚类精度。R.J等将遗传算法与模糊k-modes算法相结合,优化了初始聚类中心点的选取。但是,以上针对K-means算法的改进均没有考虑到簇内数据的相关性,这往往导致聚类结果准确率稳定性差从而达不到预期要求。
发明内容
本发明的目的在于克服上述缺点而提供的一种提高对聚类中心定位以及簇划分的精确度的基于改进的局部异常因子检测的数据分类方法。
本发明目的及解决其主要技术问题是采用以下技术方案来实现的:
本发明的基于改进的局部异常因子检测的数据分类方法,包括以下步骤:
(1)离群因子检测
根据原始K-means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:
表示为点p的领域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均值;
如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;
(2)相似性度量
对数据集的每一个属性如公式(II)进行初步的预处理:
Xij=xij/max(xij) (II)
其中,max(xij)表示数据第j列的最大值;
分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值:
根据公式(V)计算出来的权值计算数据点之间加权欧式距离:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州师范大学,未经贵州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910368828.5/2.html,转载请声明来源钻瓜专利网。