[发明专利]采用最小最大概率机的分离概率的有监督线性降维方法在审
申请号: | 201810371801.7 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108845974A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 宋士吉;巩延上;张玉利;黄高 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/15 | 分类号: | G06F17/15 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线性降维 最大概率 概率 降维 投影矩阵 投影向量 计算机机器学习 共轭梯度法 距离度量 统计学习 应用效果 区分度 样本集 监督 多维 维度 样本 输出 分类 优化 保证 | ||
本发明提出一种采用最小最大概率机的分离概率的有监督线性降维方法,属于计算机机器学习和统计学习技术领域。该方法首先建立采用最小最大概率机的分离概率的有监督线性降维模型,模型的输入为具有多个维度和类别的样本集,输出为投影矩阵;当降维到1维时,属于单一投影向量目标;当降维到多维时,属于多个投影向量目标;本发明使用样本间的分离概率作为类别之间的距离度量,并使用了共轭梯度法进行优化,最终得到保证每一个类别对都尽量具有最大的分离概率的投影矩阵。本发明能够提高数据的可区分度以及后续分类的准确性和效率,在多类降维问题上能够达到很好的应用效果。
技术领域
本发明属于计算机机器学习和统计学习技术领域,特别涉及一种采用最小最大概率机的分离概率的有监督线性降维方法。
背景技术
在机器学习和度量学习领域中,降维方法的作用是非常重要的。降维方法可以将高维的数据映射到一个低维的子空间中,同时尽可能地保留了样本之间(非监督学习)或者类别之间(有监督学习)的分离信息。它经常用作数据的预处理,以提高后续的数据分析的效果,如分类器、数据可视化和回归等。
线性判别分析(LDA)是经典的基于有监督距离度量的特征提取和降维方法。LDA起初由Fisher等提出用于二分类问题中,然后被Rao等扩展到了多类问题。它通过最大化总类间离散度同时最小化总类内离散度,来得到一个最优的投影矩阵。在过去的几十年内,有许多研究人员对LDA进行了改进,来提高它在一些特定数据集上的准确度,比如使用罚函数、递归线性判别、判别学习分析等方法。但是这些降维方法一般是从全局角度上分析了所有不同类的离散度,并没有分别考虑每一个类别对的情况。当应用到多类问题的场景中时,有一些类别对可能会处理的不合适。比如,LDA虽然可以用到多类问题的降维场景中,但是有一个内在的缺点:它求得投影矩阵依赖的是总类内离散度和总类间离散度,其进行距离度量的形式,我们称之为“平方和”形式。LDA的目标函数将所有的平方形式的类间距离和类内距离分别直接相加,其平方函数曲线的性质可能会导致对一些需要重点优化的类别对的忽视,反而去优化已经足够容易相互分离的类别对。比如将LDA应用到不同的类间距的值相差很大的情景时,就会出现不理想的结果。
为了克服此形式带来的缺点,近些年来出现了许多改进LDA应用于多类中的效果的降维方法。这些改进方法通常会有一个共同的特点,即考虑了“成对”的场景,如样本对或类别对等,来克服上述问题。考虑“成对”情况的优势在于,能够针对不同的样本对或类别对,有针对性地做出不同的处理,使得降维方法的结果既能够获得全局的高分离度,也能够达到某些局部的高分离度。这样会使得某些效果不好的状况得到更深层次的优化。但是,这些方法虽然在一定程度上克服了LDA的多类场景下的不足之处,但是通常是启发式的,它们的目标函数缺乏一个准确的实际意义。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种采用最小最大概率机的分离概率的有监督线性降维方法。本发明首次实现了使用样本间的分离概率作为类别之间距离度量,,能够提高数据的可区分度以及后续分类的准确性和效率,在多类降维问题上能够达到很好的应用效果。
本发明提出一种采用最小最大概率机的分离概率的有监督线性降维方法,其特征在于,该方法包括以下步骤:
1)建立采用最小最大概率机的分离概率的有监督线性降维DR-MPM模型;
令模型的输入为样本集样本集中第i个个样本xi对应的类别标签记为ci,i=1,2,...,n,样本集的类别总数为K,模型的输出为投影矩阵wi为构成投影矩阵的第i个投影向量;其中,n为输入的样本集中的样本序号,d为样本原始维数,p为目标维数,p<d,R表示实数集;
2)对p的取值进行判定:若p=1,则为单一投影向量目标,进入步骤3);若p>1,则为多个投影向量目标,进入步骤4);
3)单一投影向量目标下的降维方法;具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810371801.7/2.html,转载请声明来源钻瓜专利网。