[发明专利]一种基于并行化主成分分析算法的数据降维方法在审

申请号：	201710384662.7	申请日：	2017-05-26
公开（公告）号：	CN107273917A	公开（公告）日：	2017-10-20
发明（设计）人：	王勇;杨晓东;陈炬光;杨晨;张应福	申请（专利权）人：	电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	成都金英专利代理事务所(普通合伙)51218	代理人：	袁英
地址：	610041 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于并行成分分析算法数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及高维数据线性降维技术，具体地涉及一种基于主成分分析算法的数据降维方法。

背景技术

随着网络信息技术和移动互联网的不断发展，企业不同业务垂直领域的数据量越来越大，如何从这些数据中发掘出有价值的信息，为企业提供重要决策支撑，成为企业制胜的关键。这些数据往往具有两个特点：一是数据规模大；二是数据的维数很高。大规模的高维数据给数据的传输、存储以及数据模式的发掘提出了挑战，如何对大规模的高维数据进行高效的处理和有效的模式发掘显得尤为重要。这些高维数据中各个维数之间通常具有某种联系，过高的维数不仅造成了数据的冗余，也增大了数据处理的时间开销，隐藏了数据的本质特征，因此研究一种数据降维方法具有重要的实际应用价值。

数据降维是将样本从原始空间通过某种线性或非线性变换投影到一个低维的子空间，可发掘出隐藏在高维数据中的能解释原始数据的低维结构，这种低维结构保持了原始数据的主要信息。典型的线性降维算法有主成分分析(PCA)和线性判别分析(LDA)。PCA主要是把原始数据中线性相关的随机变量转换为几个线性无关的新随机变量，且保留了原始数据的主要信息。LDA的目标是使得降维后的低维空间中，同类数据尽可能靠近，非同类数据尽可能的分离。相比于LDA，PCA的应用范围更广。线性降维算法由于具有完备的理论体系，且在各种应用中都表现出了良好的适用性，正在广泛地应用于模式识别、统计学分析、数字图像处理以及计算机视觉等领域。

传统的单机主成分分析算法在进行数据降维时会存在以下缺点：1、计算机内存不足以放下整个大规模的待降维数据集，样本数据集过大将限制后续对数据模式发掘的准确性，若只升级计算机硬件，当数据集的需求继续增大时，将导致扩展性较差；2、即使单机计算机硬件满足内存的需要，传统的主成分分析需要多次遍历数据样本集，这时的磁盘I/O必将成为限制主成分分析效率的瓶颈，导致主成分分析计算效率较低。这两个主要缺点限制了主成分分析在大规模高维数据降维技术领域的应用潜力。

发明内容

本发明针对现有技术中的不足，提供一种利用MapReduce并行计算框架的主成分分析方法，解决传统单机主成分分析算法的由于数据规模太大而无法一次加载到内存的问题，有利于减少I/O操作，提高数据降维的处理效率。

为实现上述目的，本发明的技术方案包括以下步骤：

S1：把待降维的高维数据构造成样本数据矩阵D_n×m；

S2：计算样本数据矩阵D_n×m的协方差矩阵C_m×m；

S3：计算协方差矩阵C_m×m的m个特征值和对应的m个特征向量；

S4：根据特征值和特征向量确定主成分数量k；

S5：利用前k大特征值对应的特征向量得出主成分矩阵。

其中，步骤S2进一步包括步骤：

S21：分配N个Mapper；

S22：分配一个Reducer，Reducer的输入是步骤S21中每个Mapper的输出结果；

S23：将步骤S22中Reducer的汇总结果通过协方差矩阵公式得到协方差矩阵C_m×m。