[发明专利]密度峰值聚类算法的聚类策略优化在审
申请号: | 202110762011.3 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113378986A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 纪耀立;万静;姜诚 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 密度 峰值 算法 策略 优化 | ||
本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。
技术领域
本发明涉及聚类分析技术领域,主要是对密度峰值聚类算法的聚类策略优化。
背景技术
聚类分析是一种无监督的学习方法,其目的是按照特定的标准,将数据划分到不同的簇中,探索数据的隐含信息,作为一种数据分析方法,聚类分析被广泛的应用于数据分析,图像处理,生物信息学,模式识别,机器学习等领域,传统的聚类分析方法主要分为以下几大类:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等,密度峰值聚类算法(Clustering by fast search and find of densitypeaks)是一种基于密度的聚类方法,于2014年由Alex Rodriguez和Alessandro在LaioScience上发表,该算法简洁且高效,可以快速搜索并发现任意形状数据集的密度峰值点,适用于大量数据的聚类,DPC算法首先需要计算数据集中每个点的局部密度ρ,然后找出每个点到局部密度比其大的最近点之间的欧氏距离δ;根据ρ和δ值画出决策图,并通过决策图选出初始聚类中心点;对于剩余的点,依次将其分配给密度比其大的最近点所在的簇类,DPC算法不需要事先指定簇类的数目,而是通过决策图选择聚类中心。
DPC算法虽然简洁高效,但在分配剩余点的时候存在以下缺陷:在将某个点A分配给局部密度比其大的最近点B所在的簇类时,若两个簇的距离较近,B点所在的簇类与与A点不属于同一个簇类,会导致该点的聚类结果发生错误,进而引发连锁反应,该点后面的点的聚类结果也会跟着出错。
发明内容
在针对上述提出的密度峰值聚类算法的缺陷,本文提出了一种新的聚类策略,对剩余点的分配过程进行优化,以避免出现相似的问题。具体步骤如下。
计算数据集中的每个样本点,到离其最近的第k个点之间的欧式距离,此距离记为该点的k-dist值,将数据集中所有样本点的k-dist值按照由小到大的顺序排序,取5%左右、k-dist值最大的样本点,标记为原始噪声点,k值的选取决定了将数据集中的哪些样本点标记为原始噪声点,在k=1、k=2、k=3时,数据集中选取的原始噪声点是不同的,因此k值的选取决定了原始噪声点在数据集中的位置,也决定了是否能适当的将不同的簇分开。
为了使簇与簇之间分离的更加彻底,以每个原始噪声点为中心,将离其最近的第n个点标记为新噪声点;同时将所有原始噪声点到离其最近的第n个点的欧氏距离保存起来,从中选取最小值,记作R,为了防止选取过多的噪声点,此处的n值应尽量小,一般为1或2。
通过决策图选取多个初始聚类中心,视为集合H。从集合H中任选一点作为初始聚类中心点A,从A点开始,以上方选取的R值为半径画圆,将圆内所有未被标记过的点(且该点不能是噪声点),标记为同一类,标记完成以后,从圆内选取离A点最近的点作为新的中心点,并同样以该点为中心,以R值为半径画圆,将圆内所有未被标记过的点标记为同一类,以此类推,利用广度优先搜索遍历算法的原理,遍历其它的点,当中心点范围内找不到未被标记过的点时,返回上一层,然后选取离上一层中心点第二近的点作为新的中心点,以R值为半径画圆,直到所有的点都找不到未被标记过的点(噪声点除外)为止,遍历结束。
以R值为半径能够最大程度的避免在遍历的过程中,从一个簇遍历到另一个簇中的点,选取原始噪声点时,一般选在簇与簇之间的临界处,以每个原始噪声点为中心,将离其最近的第n个点标记为新噪声点,能够保证簇与簇之间的欧式距离大于R值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762011.3/2.html,转载请声明来源钻瓜专利网。