[发明专利]一种带局域限制的矩阵概念分解方法有效

专利信息
申请号: 201210200313.2 申请日: 2012-06-14
公开(公告)号: CN102779162A 公开(公告)日: 2012-11-14
发明(设计)人: 刘海风;杨根茂;杨政;吴朝晖 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 局域 限制 矩阵 概念 分解 方法
【说明书】:

技术领域

发明属于数据处理技术领域,具体涉及一种带局域限制的矩阵概念分解方法。

背景技术

聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域:在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。

目前,大多数聚类方法都能比较成功的解决低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为一些聚类方法对高维数据集中进行聚类时,主要遇到两个问题:(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。

针对以上两个问题,也是为了解决维数灾难和消除数据中对于聚类来说不必要的冗佘信息,在进行聚类之前,先进行数据降维是非常必要的。数据的降维表示在模式识别、计算机视觉以及图像处理等应用领域是一个基本问题。线性的数据表示方法,如矢量分解(Vector Quantization,VQ)、主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)、稀疏编码(Sparse Coding)、矩阵分解(Matrix Factorization,MF)等,已经被广泛应用到这些数据分析的实际应用中。

在所有这些方法中,矩阵分解是最为频繁使用的基本方法。矩阵分解的基本步骤是将原始数据矩阵分解成为两个或两个以上的因子矩阵,而分解所得因子矩阵的乘积可以有效地近似表示原始数据。一般矩阵分解所得的其中一个因子矩阵(或者几个因子矩阵的乘积)可以看作原始数据的基,每组基向量都蕴含着一些数据的内在语义;其他的因子矩阵则看作系数矩阵,来表述原始数据与每组基向量的联系,它相当于原始数据在低维空间下的新表示。在现实应用中,矩阵分解后找到的基的数量通常要远小于数据的原始维度。因此矩阵分解可以有效地压缩数据大小,为其他数据学习方案如聚类、分类等提供便利。

基于矩阵分解理论的非负矩阵分解(Non-negative Matrix Factorization,NMF)和概念分解(Concept Factorization,CF),已经被证实在图像处理、人脸识别、文档聚类以及生物信息化等数据分析应用中表现得十分出色。非负矩阵分解与其他矩阵分解方法的不同之处是,它要求原始数据矩阵非负(即矩阵的每个元素都是非负的),并且分解所得的因子矩阵都是非负的。使用非负矩阵分解方法所得的基可以直观地体现原始数据内蕴含的潜在语义关系,而且是对原始数据的稀疏编码。而概念分解作为非负矩阵分解的一个变种,其使用了原始数据的线性组合来表示每组基,概念分解在继承非负矩阵分解的数据降维表示能力的同时,还可以应用于任意数据集表示空间,因此概念分解可以使用核化方法来强化矩阵分解的效果。尽管以上这两种方法都能达到稀疏性目标,却无法保证局域限制。这两种分解方法所得到的基可能与原始数据距离甚远,使用这类基来进行数据表示显然也不会是最优的。

发明内容

针对现有技术所存在的上述技术缺陷,本发明提供了一种带局域限制的矩阵概念分解方法,能够改善聚类分析的效果,提高聚类分析的判别能力。

一种带局域限制的矩阵概念分解方法,包括如下步骤:

(1)获取样本集合,进而构建样本集合的样本特征矩阵;

所述的样本特征矩阵为m×n维矩阵,m为特征个数,n为样本个数,且m和n均为大于1的自然数,样本特征矩阵中的任一元素值为对应样本对应特征的特征值;

(2)根据所述的样本特征矩阵,通过带局域限制的迭代算法求解出基矩阵和系数矩阵;

(3)使所述的系数矩阵作为样本特征矩阵的低维表示,并根据所述的基矩阵计算出样本特征矩阵的基,以供聚类分析。

所述的步骤(2)中,带局域限制的迭代算法基于以下迭代方程组:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210200313.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top