[发明专利]一种基于非负局部坐标分解的聚类方法无效
申请号: | 201110394686.3 | 申请日: | 2011-12-02 |
公开(公告)号: | CN102495876A | 公开(公告)日: | 2012-06-13 |
发明(设计)人: | 何晓飞;陈琰 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 坐标 分解 方法 | ||
技术领域
本发明属于数据处理技术领域,具体涉及一种基于非负局部坐标分解的聚类方法。
背景技术
聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域:在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。
常见的聚类分析方法主要包括如下几种:
(1)分裂法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有:Kmeans、Kmedoids和CLARA(Clustering LARge Application)等。
(2)层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有:BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)、CURE(Clustering Using REprisentatives)和CHEMALOEN等。
(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有:DBSCAN(Densit-based Spatial Clustering of Application with Noise)和OPTICS(Ordering Points To Identity the Clustering Structure)。
(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。
(5)基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。
这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题:(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。
针对以上两个问题,也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息,在进行聚类之前,先进行数据降维是必要的。目前主要的降维方法有:
(1)主成分分析(Principal Component Analysis,PCA):经典的无监督线性降维方法。其是一种掌握事物主要特征的方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。
(2)线性判别分析(Linear DiscriminantAnalysis,LDA):经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构,适用于以分类和识别为目的的降维,但重构效果不如PCA方法。
(3)非负矩阵分解(Nonnegative Matrix Factorization,NMF):非负矩阵分解法通过将数据矩阵分解为基矩阵U和系数矩阵V来达到降维的目的,在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。
PCA是传统而经典的无监督降维方法,目前已经广泛应用于各种应用,该方法可以有效地找出数据的主要特征,但是不能有效地提取出数据的类别特征;LDA作为一种有监督的降维方法,尽管效果不错,但该方法需要大量的含有标签信息的数据作为训练数据,故其只适合于作为分类的降维手段,并不适合于作为聚类分析的降维手段;NMF作为一种基本的降维框架,其降维得到的数据具有良好的可解释性而成为目前的热点,但其降维后进行聚类分析,效果并不理想,聚类分析时的判别能力仍有提高的空间。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110394686.3/2.html,转载请声明来源钻瓜专利网。