[发明专利]基于局部密度估计和近邻关系传播的多路谱聚类方法在审
申请号: | 201310260062.1 | 申请日: | 2013-06-27 |
公开(公告)号: | CN103399852A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 杨金龙;李志伟;葛洪伟;周得水 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 密度 估计 近邻 关系 传播 多路谱聚类 方法 | ||
技术领域
本发明属于聚类分析技术领域,涉及谱聚类中改进亲合矩阵的构造方法。具体地说是一种基于局部密度估计和近邻关系传播的多路谱聚类方法,可用于数据挖掘、图像分割和机器学习等系统。
背景技术
谱聚类技术是建立在谱图理论基础之上,本质是利用谱松弛的方法将聚类问题转化为图的最优划分问题。首先根据给定的数据集,定义亲合矩阵以描述数据点之间的相似度,并计算标准化亲合矩阵的特征值和特征向量,通过选择合适的特征向量对不同的数据点进行聚类。与传统的聚类算法(如K-means)相比,它能对样本空间上任意形状的数据集进行聚类,并可以收敛到全局最优解。因此,谱聚类方法已被广泛应用于图像分割、计算机视觉、语音识别和VLSI设计等领域。
近年来,Shi和Malik根据谱图理论建立了基于2-way划分的标准割(Ncut)目标函数,设计用于图像分割的谱聚类算法,并经Ng等人发展成为k-way划分的NJW算法。这些经典算法中都是采用由欧氏距离决定的高斯函数计算相似度矩阵W,很难反应出数据集样本之间真实的相似关系,尤其是对具有复杂分布结构的任意形状的数据集而言,该方法构造的相似度矩阵将失效。
为了获取能够反映数据样本之间真实的相似度,目前出现了许多改进的方法,如基于路径的相似度度量方法,基于流平面排序定义亲合图的新方法,基于密度敏感的距离测度相似函数构造方法等,这些方法虽然在一定程度上改善了谱聚类方法的聚类性能,但并未能解决构造相似度矩阵的本质问题。2012年,Li等人提出了基于近邻关系传播的亲合矩阵构造方法(简称SC-NP),该方法首先根据距离阈值ε来初始化样本的近邻关系,然后根据近邻关系传播原则将高相似性的样本划分至同一子集中。尽管该方法能够放大同一子集内样本的相似度,但对于子集间样本的相似度是采用相似度矩阵W的全局最小值来度量,降低了属于同一类的不同子集间的相似度,且对于密度分布不均匀的数据而言,易出现将不同类的样本划分至子集中,导致构造出来的亲合矩阵不能够真实反映样本之间的相似关系,聚类结果不准确。
发明内容
本发明的目的在于克服上述背景技术中存在的问题,提出一种基于局部密度估计和近邻关系传播的多路谱聚类方法,通过构造能够真实反映样本之间相似性的相似度矩阵,使得聚类结果更加准确、稳定。
实现本发明的技术关键是:一种基于局部密度估计和近邻关系传播的多路谱聚类方法。具体实现步骤包括如下:
(1)输入数据集X={x1,x2,...,xn}∈Rd,xn表示数据集中的第n个样本,n为样本个数,d表示样本维数。
(2)估计样本的局部密度
(2a)寻找每个样本x的K个最近邻样本,并构成集合N(x)={y1,y2,...,yk}∈Rd,yK表示样本x的第K个最近邻样本;
(2b)计算样本x的距离集合,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310260062.1/2.html,转载请声明来源钻瓜专利网。