[发明专利]基于图论的k-means非线性流形聚类与代表点选取方法有效
申请号: | 201310508232.3 | 申请日: | 2013-10-24 |
公开(公告)号: | CN103617609A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 屠恩美;杨杰 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 means 非线性 流形 代表 选取 方法 | ||
技术领域
本发明涉及机器学习和模式识别中的样本聚类技术领域,具体地,涉及一种基于图论的k-means非线性流形聚类与代表点选取方法。
背景技术
现代科学研究表明,很多高维数据都服从流形分布,数据所分布的流形维数一般远低于数据本身的维度。例如一幅100x100的人脸图像有10000个数据维度,而在人脸识别的过程中,对于同一个人的不同人脸照片,其中起决定作用的关键因素可能只有数十个甚至数个,如五官的大小、比例,脸型以及表情等,而每个人的这些关键因素都服从一定的分布,即低维流形分布。如何充分挖掘这些内在因素从而提高识别的正确率给很多传统的聚类方法带来了很大的挑战。这也正是流形聚类所研究的内容。
在现有的流形聚类方法中,一类是线性流形的聚类方法,也称为子空间聚类。此类方法虽然对于线性流形分布的数据能够获得很好的效果,但是对于非线性流形分布的数据则很难获得满意效果,而实际用用中很多数据分布并不是线性的。因此,此类方法具有较大的局限性。另一类是非线性流形聚类方法,其中比较常用的是基于图论谱分析的谱聚类方法。但谱聚类方法只能给出数据集的分类信息,无法给出数据集的代表点,也就是数据集中那些最能代表该数据集特征的样本成员。实际应用中这些代表点也往往具有重要的作用,例如视频摘要或者文档摘要的目的就是要找出很少的最具代表性的视频帧或者文档句子,作为检索的关键索引或者作为内容的压缩,从而只需要浏览者很小部分的代表点就可以大概知道整个视频或文档的内容,即节省了浏览者的时间又节省了存储的空间。其他的非线性流形聚类方法要么需要苛刻的前提条件(例如只对解析流形有效或者要求非线性流形间具有很好的可分性),要么需要复杂的优化过程,不利于实际的大规模应用。
现有技术中,出现的上述类似技术,比如:
[1]M.Breitenbach and G.Z.Grudic,Clustering through ranking on manifolds,in ICML,2005,pp.73-80.
[2]E.Elhamifar,G.Sapiro,and R.Vidal,See all by looking at a few:Sparse modeling for finding representative objects,in Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on,2012,pp.1600-1607.
因此,随着现在各个领域实验数据的不断增多,在数据维数越来越大的情况下,亟待有一种方法能够充分地利用数据分布的低维流形特征实现很好的聚类,同时又能给出数据各样本与代表点间的关系。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于图论的k-means非线性流形聚类与代表点选取方法,具有很好的聚类效果,同时能够为每类指定一个最具代表性的点,方法实现简单,易于操作,非常适合具有低维流形分布的高维数据处理应用。
为实现上述目的,本发明提出一种基于图论的k-means非线性流形聚类与代表点选取方法。该方法首先使用要聚类的样本集构建一个图模型,然后在图模型上交替更新类别中心和更新各类成员,直至收敛,收敛后的中心既是要选取的代表点,同时与各代表点具有相同类别标号的样本点为一类,其中:
在更新类别中心时,限制类别中心为图上的节点,在每次的更新中选取某个类别中的一个成员作为聚类中心,使得它与所在类别中所有其他成员的图距离之和最小;
在更新样本所属类别时,使用本发明提出的无限次随机游走概率作为样本和中心间的相似性度量,无限次随机游走概率矩阵计算方法如下:
其中I为单位矩阵,α是小于1的正数,P=D-1W为随机游走转移矩阵,其中W为所构建图模型的邻接矩阵,D为对角矩阵,其对角元为对应的W行和,无限次随机游走概率矩阵中的第i行第j列元素表示样本集中第i个样本到第j个样本的无限次随机游走概率。
以下对本发明上述方法做进一步说明。
传统的k-means聚类方法在不断的迭代中有两个关键步骤:更新聚类中心和更新各类成员。针对这两个关键步骤,本发明给出了彻底性的改进。本发明的方法如下:
1.更新类别中心
对于给定的样本集合,首先计算样本两两之间的欧式距离得到一个距离矩阵,然后利用此距离矩阵采用dijkstra方法或者其他类似方法计算出样本两两之间的图距离,获得一个图距离矩阵,记为DG。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310508232.3/2.html,转载请声明来源钻瓜专利网。