[发明专利]一种反馈式密度峰值聚类方法及系统在审

专利信息
申请号: 201710131145.9 申请日: 2017-03-07
公开(公告)号: CN107016407A 公开(公告)日: 2017-08-04
发明(设计)人: 丁世飞;徐晓;杜明晶;贾洪杰;徐丽;胡乾坤 申请(专利权)人: 中国矿业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 221116 江苏省徐*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 反馈 密度 峰值 方法 系统
【说明书】:

技术领域

发明一种反馈式密度峰值聚类方法及系统,可以在任意形状的数据集上自动聚类,涉及模式识别和机器学习领域。特别涉及利用SVM模型反馈两个类之间的聚类结果,根据SVM训练得到的支持向量设计出一种新的反馈策略合并类,得到准确的聚类结果。

背景技术

聚类分析是非监督学习,是数据挖掘的一个重要研究方向,大体可以分为基于划分、基于层次、基于模型、基于密度和基于网格等5类聚类算法。基于密度的聚类算法将簇看作数据空间中由低密度区域分隔开的高密度对象区域,同时聚类的形状没有基准,可以用来过滤噪声孤立点数据,发现任意形状的簇。

基于密度的密度峰值聚类算法在2014年被提出,可以用于不同数据的聚类分析。密度峰值聚类算法是根据聚类中心的两大属性:聚类中心本身的密度较大,被密度不超过它的邻居包围以及聚类中心离密度大于它的点距离较远来绘制决策图,快速寻找两个属性都大的值称为密度峰值作为聚类中心。密度峰值聚类算法不需要预先设定类簇数,同时算法复杂度不高,并能应用于任意形状的数据。但当聚类时一个类中出现多个密度峰值时,异常样本点将会作为伪聚类中心被选中,一个类会被分成多个类,影响聚类结果,同时密度峰值聚类算法在高维数据集上的准确率不高。

发明内容

为了解决上述问题,本发明提出一种反馈式密度峰值聚类方法及系统。首先,用非负矩阵分解对数据集进行特征提取,然后,以基于密度峰值的聚类算法作为基础,进行聚类,最后提出一种反馈策略,对类进行合并得出正确的聚类结果。该方法不仅能够有效提高密度峰值算法的鲁棒性,在一个类中出现多个密度峰值的时候不会被多划分,发现任意形状的簇,同时能有效地处理高维数据集,具有很好地聚类效果。

本发明是通过以下方案实现的:

本发明涉及一种反馈式密度峰值聚类方法,以密度峰值聚类算法作为基础,在聚类之前引入非负矩阵分解,同时在聚类时提出一种反馈策略进行类合并,以提高聚类的准确率。

本发明具体步骤如下:

步骤1:用非负矩阵分解NMF对数据集进行特征提取。

步骤2:构成距离矩阵dij

步骤3:利用计算每个数据点的局部密度ρi

步骤4:利用计算每个数据点的距离属性δi

步骤5:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的数据点作为聚类中心。

步骤6:将剩余点归于密度等于或者高于当前点的最近点一类。

步骤7:计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。

步骤8:用SVM对每两个类进行训练,反馈一个结果值。

步骤9:根据反馈值对类进行合并,得出聚类结果。

本发明具有如下优点及效果:

(1)本方法能够当一个类中出现多密度峰值时准确聚类,不会将这个类划分成多个类。

(2)通过非负矩阵分解对数据集进行预先特征提取,解决密度峰值聚类算法在高维数据集上聚类不准确的弊端,有效提高聚类的准确率。

(3)采用自定义的反馈策略进行类合并,成功降低了由于聚类中心由人为选择的错误率,提出的方法可以自动进行准确聚类。

附图说明

为了对本发明进一步理解,更清楚地说明本发明实施例,下面将对实施例描述中所需要使用的附图作简单介绍。

图1为本申请实施案例提供的一种反馈式密度峰值聚类的流程图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施案例仅仅是本申请一部分实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

实施例1

如图1所示,本实施案例包括以下步骤:

输入:数据集X={x1,x2,x3,……xn},截断距离dc,合并指标d。

输出:聚类结果标签。

步骤1,用非负矩阵分解对数据集进行特征提取,其计算公式如下:

步骤2,基于密度峰值聚类算法进行初始聚类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710131145.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top