[发明专利]基于局部密度估计和近邻关系传播的多路谱聚类方法在审
申请号: | 201310260062.1 | 申请日: | 2013-06-27 |
公开(公告)号: | CN103399852A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 杨金龙;李志伟;葛洪伟;周得水 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于局部密度估计和近邻关系传播的多路谱聚类方法。主要解决已有聚类技术很难对密度分布不均匀的数据进行聚类的问题。实现过程为:(1)估计样本的局部密度,并将其作为数据特征,对原数据进行升维;(2)计算距离矩阵、阈值和相似度矩阵,并初始化近邻关系矩阵;(3)更新近邻关系矩阵和相似度矩阵,进一步采用局部最大相似值更新子集间样本的相似度,得出较准确的亲合矩阵;(4)计算度矩阵和规范化的拉普拉斯矩阵;(5)归一化谱矩阵,并采用K-means算法得出聚类结果。本发明与现有的聚类技术相比,能够获得更加真实的相似度矩阵,使得聚类结果更加准确,具有较好的鲁棒性。 | ||
搜索关键词: | 基于 局部 密度 估计 近邻 关系 传播 多路谱聚类 方法 | ||
【主权项】:
1.一种基于局部密度估计和近邻关系传播的多路谱聚类方法,包括如下步骤:(1)输入数据集X={x1,x2,...,xn}∈Rd,xn表示数据集中的第n个样本,n为样本个数,d为样本维数;(2)估计样本的局部密度:(2a)寻找样本x的K个最近邻样本,并构成集合N(x)={y1,y2,...,yk}∈Rd,其中,yK表示样本x的第K个最近邻样本;(2b)计算x的距离集合:D ( x ) = ∪ i = 1 K d ( y i , Nearest ( y i ) ) , ]]> 其中,Nearest(yi)表示样本yi的最近邻样本,d(yi,yj)表示yi与yj的欧氏距离:d ( y i , y j ) = ( y i 1 - y j 1 ) 2 + ( y i 2 - y j 2 ) 2 + . . . + ( y id - y jd ) 2 ]]> 其中,yid和yjd分别表示第i个样本和第j个样本的第d维属性值;(2c)定义样本集Near(x):先判断D(x)中元素是否可以分成两类,若可分,设元素个数较多的一类样本表示为y′1,y′2,...,y′m,其中,m表示样本个数,则认为这m个样本对x的密度估计有较大影响,定义Near(x)={y′i|i=1:m},否则,K个样本整体对x的密度估计都有较大影响,定义Near(x)=N(x);(2d)计算x的判别密度估计![]()
f ^ P ( x ) = Σ x i ∈ Near ( x ) e - d ( x , x i ) 2 2 σ 2 ]]> 其中,Near(x)根据步骤(2c)可得,d(x,xi)为样本x与xi的欧氏距离,σ2为窗宽;(2e)计算x的单独密度估计![]()
f ^ S ( x ) = e - d ( x , y 3 ) 2 2 σ 2 ]]> 其中,y3为x的第3个近邻样本;(2f)计算x的局部密度估计
定义局部密度估计为判别密度估计与单独密度估计之和,即f ^ L ( x ) = f ^ P ( x ) + f ^ S ( x ) ; ]]> (3)样本密度升维:将局部密度
作为第d+1维扩展到样本x中,构成新的数据集X * = { x 1 * , x 2 * , . . . , x n * } ∈ R d + 1 , ]]> 其中,x n * [ x n f ^ L ( x ) ] T ; ]]> (4)计算X*样本之间的欧氏距离,得到距离矩阵B,即B=[bij]n×n;(5)计算X*样本之间的相似度,得到相似度矩阵W=[wij]n×n,wij=exp(-bij2/2σ2),其中,wij表示第i个样本和第j个样本之间的相似性;(6)根据距离矩阵B计算阈值ε,并确定B中元素对应样本之间的近邻关系,获得初始的近邻关系矩阵T,其中,
(7)根据近邻关系传播原则分别更新T和W,得出亲合矩阵A;(8)构建度矩阵D和拉普拉斯矩阵Lsym,其中,D为对角矩阵,对角元素
表示第i个样本xi的度,Lsym=D-1/2AD-1/2;(9)计算Lsym的前k个最大特征值所对应的特征向量,并构成矩阵V,然后进一步单位化为矩阵Y=[yij]n×k,其中,
(10)将Y的每一行作为k维空间中的一个样本点,通过K-means算法将这些样本点聚成k类;当且仅当Y的第i行被分配为第j类时,将样本xi分配为第j类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310260062.1/,转载请声明来源钻瓜专利网。