[发明专利]一种反馈式密度峰值聚类方法及系统在审
申请号: | 201710131145.9 | 申请日: | 2017-03-07 |
公开(公告)号: | CN107016407A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 丁世飞;徐晓;杜明晶;贾洪杰;徐丽;胡乾坤 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 反馈 密度 峰值 方法 系统 | ||
1.一种反馈式密度峰值聚类方法及系统,其特征在于,利用非负矩阵分解对数据集进行降维,然后基于密度峰值聚类算法对数据进行初始聚类,再根据反馈策略合并类,得出聚类结果,该方法具体包括:
步骤1:用非负矩阵分解对数据集进行特征提取;
步骤2:构造距离矩阵dij;
步骤3:利用计算每个数据点的局部密度ρi;
步骤4:利用计算每个数据点的距离属性δi;
步骤5:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的数据点作为聚类中心;
步骤6:将剩余点归于密度等于或者高于当前点的最近点一类;
步骤7:计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点;
步骤8:用SVM对每两个类进行训练,反馈一个结果值;
步骤9:根据反馈值对类进行合并,得出聚类结果。
2.根据权利要求1所述的一种反馈式密度峰值聚类方法及系统,其特征在于:利用非负矩阵分解对数据集进行降维,并利用反馈策略对初始聚类后的类进行合并,得出准确的聚类结果,这两种方法的结合可以提高原密度峰值聚类算法在一类中同时出现多密度峰值时多聚类的鲁棒性,并且可以提高在高维数据集上的准确率。
3.根据权利要求1所述的一种反馈式密度峰值聚类方法及系统,其特征在于:所述的数据集X={X1,X2,X3,……Xn}是一个n*d的矩阵,反馈系数一般取0.3~0.5,特殊情况根据实验情况调整,截断距离dc一般取2%,同样,特殊情况根据实验调整。
4.根据权利要求1所述的方法,其特征在于:所述的初始化聚类是指利用密度峰值聚类算法进行聚类,但由于原密度峰值聚类算法在一个类中出现多密度峰值时会将一个类多聚类,权利1所述的一种反馈式密度峰值聚类方法及系统采用反馈策略进行类合并,所以在选择聚类中心的时候尽可能多的选择聚类中心不会影响最后的聚类结果。
5.根据权利要求1所述的方法,其特征是,所述的步骤8使用SVM对每两个类进行训练,反馈一个结果值是指:假设得到的聚类结果集C={c1,c2,c3,…ck},x={x1,x2,x3,…xn}和y={y1,y2,y3,…ym}分别为用SVM 训练后类h和类p的支持向量,代表数据点到所有类h中其他数据点的最短距离,代表数据点到类p中数据点的最短距离。那么类h和类p之间的反馈值为:
6.根据权利要求1所述的方法,其特征是,所述的步骤9根据反馈值对类进行合并是指:如果上面得到的F(Ch,Cp)>d,我们将这两个类进行合并,直到所有的类都被访问结束合并。
7.一种实现上述任一权利要求所述方法的系统,其特征在于:密度峰值聚类模块和利用反馈策略合并类模块,其中密度峰值聚类进行初步聚类,首先用非负矩阵对数据集进行特征提取,然后基于密度峰值聚类算法绘制决策图选择聚类中心,分配所有剩余的网格单元,去除噪声单元,输出聚类结果;反馈策略合并类模块利用SVM训练前面得出的聚类结果,反馈结果值,并且根据结果值进行合并类,得出准确的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131145.9/1.html,转载请声明来源钻瓜专利网。