[发明专利]一种数据挖掘中基于线性判别分析的改进型K均值聚类方法无效
申请号: | 201310582288.3 | 申请日: | 2013-11-18 |
公开(公告)号: | CN103678500A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 王堃;张玉华;孙雁飞;吴蒙;郭篁;陈思光 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法,即LKM算法,首先运用线性判别分析(LDA)对原始的n维数据集A进行线性降维,得到l维的数据集Y,然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析,并输出最终结果。本发明采用数据降维与K均值聚类方法结合的方法,利用数据降维技术弥补k均值聚类算法面对高维数据时的缺陷。通过数据降维来达到减轻维数灾难和消除高维空间中其他不相关属性的目的。同时,这也提高了k均值聚类算法处理高维数据的性能,弥补了k均值聚类算法的相关缺陷。 | ||
搜索关键词: | 一种 数据 挖掘 基于 线性 判别分析 改进型 均值 方法 | ||
【主权项】:
一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析;具体步骤描述如下:1)利用线性判别分析生成一个转换矩阵G;2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St;3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵 G * = arg max G { trace ( ( G T S t G ) - 1 G T S b G ) } , GT是G的转置矩阵;4)利用最佳转化矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y;5)从降维后的数据集Y中任意选择K个数据作为初始聚类中心Zj(I),j=1,2,3,…k,k=K,K为K均值聚类方法中指定的一个自然数,I=1;6)计算向量yi与步骤5)中的初始聚类中心Zj(I)的欧式距离D(yi,Zj(I)),若满足D(yi,Zm(I))=min D(yi,Zj(I)),m∈{1,2,3…k},则将yi赋给第m个簇Cm;7)计算误差平方和准则函数Jc;8)判断:若误差平方和准则函数Jc收敛,即|Jc(I)‑Jc(I‑1)|<ε,ε为任意小的正数,则该算法结束,进行输出;否则I=I+1,重新计算K个新的聚类中心Zj(I),并返回步骤6)重新进行计算距离。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310582288.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种酞菁化合物合成装置
- 下一篇:一体化车辆零件传递和构建系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置