[发明专利]基于局部密度估计和近邻关系传播的多路谱聚类方法在审
申请号: | 201310260062.1 | 申请日: | 2013-06-27 |
公开(公告)号: | CN103399852A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 杨金龙;李志伟;葛洪伟;周得水 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 密度 估计 近邻 关系 传播 多路谱聚类 方法 | ||
1.一种基于局部密度估计和近邻关系传播的多路谱聚类方法,包括如下步骤:
(1)输入数据集X={x1,x2,...,xn}∈Rd,xn表示数据集中的第n个样本,n为样本个数,d为样本维数;
(2)估计样本的局部密度:
(2a)寻找样本x的K个最近邻样本,并构成集合N(x)={y1,y2,...,yk}∈Rd,其中,yK表示样本x的第K个最近邻样本;
(2b)计算x的距离集合:
其中,yid和yjd分别表示第i个样本和第j个样本的第d维属性值;
(2c)定义样本集Near(x):先判断D(x)中元素是否可以分成两类,若可分,设元素个数较多的一类样本表示为y′1,y′2,...,y′m,其中,m表示样本个数,则认为这m个样本对x的密度估计有较大影响,定义Near(x)={y′i|i=1:m},否则,K个样本整体对x的密度估计都有较大影响,定义Near(x)=N(x);
(2d)计算x的判别密度估计
其中,Near(x)根据步骤(2c)可得,d(x,xi)为样本x与xi的欧氏距离,σ2为窗宽;
(2e)计算x的单独密度估计
其中,y3为x的第3个近邻样本;
(2f)计算x的局部密度估计定义局部密度估计为判别密度估计与单独密度估计之和,即
(3)样本密度升维:将局部密度作为第d+1维扩展到样本x中,构成新的数据集
(4)计算X*样本之间的欧氏距离,得到距离矩阵B,即B=[bij]n×n;
(5)计算X*样本之间的相似度,得到相似度矩阵W=[wij]n×n,wij=exp(-bij2/2σ2),其中,wij表示第i个样本和第j个样本之间的相似性;
(6)根据距离矩阵B计算阈值ε,并确定B中元素对应样本之间的近邻关系,获得初始的近邻关系矩阵T,其中,
(7)根据近邻关系传播原则分别更新T和W,得出亲合矩阵A;
(8)构建度矩阵D和拉普拉斯矩阵Lsym,其中,D为对角矩阵,对角元素表示第i个样本xi的度,Lsym=D-1/2AD-1/2;
(9)计算Lsym的前k个最大特征值所对应的特征向量,并构成矩阵V,然后进一步单位化为矩阵Y=[yij]n×k,其中,
(10)将Y的每一行作为k维空间中的一个样本点,通过K-means算法将这些样本点聚成k类;当且仅当Y的第i行被分配为第j类时,将样本xi分配为第j类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310260062.1/1.html,转载请声明来源钻瓜专利网。