[发明专利]一种基于自适应二部图的快速鲁棒无监督降维算法在审
申请号: | 202210796500.5 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115329837A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 牛凡;郭军;石梅;许鹏飞;孙敏娟;张益姣;张奥;姚丽娜;刘晓霞 | 申请(专利权)人: | 西北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 二部 快速 鲁棒无 监督 算法 | ||
本发明公开了一种基于自适应二部图的快速鲁棒无监督降维算法(FRUDR‑ABG),使用锚点策略来构造描述统计或几何信息的二部图,并能快速自适应地更新图和学习低维表示;另外使用新的距离准则来处理异常值带来的负面影响。为了更完整的保留结构信息,算法中加入了实用的策略以达到同时保留原始数据的局部流形和全局结构的目的。在这个算法中,结构学习和降维同时进行,实现了全局和局部结构学习的结合。提出迭代重加权优化方法进行求解之后,还设计了一系列在基准数据集上的实验,去验证该算法效率和识别性能。这些优点使得FRUDR‑ABG更适合大规模数据集降维。
技术领域
本发明属于数据降维与机器学习领域,具体涉及一种基于自适应二部图的快速鲁棒无监督降维算法。
背景技术
数据降维在机器学习,计算机视觉,数据挖掘等领域中起着至关重要的作用。现有的降维算法可以分为有监督,半监督和无监督。而有监督和半监督或多或少都需要类别标签的指导。但类别标签需要人工进行标记,并不容易获得。因此研究不需要标签信息指导,可以直接学习数据内部结构的无监督降维(UDR)算法是非常有意义的。
而基于图的UDR算法因能高效地构建样本间关系图来捕捉对象或数据中的统计信息而受到广泛关注。现有的图UDR算法分为两种:第一种可以统一到图嵌入的两步通用框架中。即先在高维空间中构造能表征数据集结构信息的相似图,再学习基于图的低维表示。这两个过程是独立进行的,一旦相似图构造完成,它就是固定不变的。这使得降维的性能和效率完全取决于图的质量。但原始空间的噪声和无关特征会降低图的质量。第二种是将这两步结合在一个统一的框架中来自适应地构造图并进行低维学习。同时学习投影方向和构建图形。但现有的基于图的UDR方法还存在不可忽略的问题。首先,这些方法往往是基于样本间的成对关系来学习相似图,其运行时间复杂度与样本数的平方成正比。这会导致他们在大规模数据集上的应用受到限制。第二,他们使用基于l2范数的平方距离准则来计算数据点之间的距离,这会放大离群点对图构造过程的干扰。第三,大多方法只保留数据的局部或全局中的单一结构,不能更好更完整地保留数据的统计或几何特性。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种基于自适应二部图的快速鲁棒无监督降维算法(FRUDR-ABG),该算法使用锚点策略来构造描述统计或几何信息的二部图,并能快速自适应地更新图和学习低维表示。另外使用新的距离准则来处理异常值带来的负面影响。为了更完整的保留结构信息,算法中加入了实用的策略以达到同时保留原始数据的局部流形和全局结构的目的。在这个算法中,结构学习和降维同时进行。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于自适应二部图的快速鲁棒无监督降维算法,其特征在于,包括以下步骤:
步骤1:数据集预处理:
数据集包括样本数据(用来降维)和标签信息(用来测试),在数据处理之前根据数据集的不同进行mapminmax或NormalizeFea归一化处理。其中,mapminmax归一化是将矩阵的每一行处理成[-1,1]区间。NormalizeFea根据行数对行或列进行归一化。另外对于特征数过大的数据集通过保留92%的信息进行PCA预处理以简化计算。
mapminmax的数学定义为Y=(YMAX-YMIN)*(X-XMIN)/(XMAX-XMIN)+YMIN。其中,X是预处理的数据点矩阵,它被定义为一个d*n的矩阵,即X=[x1,x2,…xn]∈Rd*n,其中,d是样本的维度,n是样本数目。YMIN和YMAX是期望的每一行的最小值与最大值,XMIN和XMAX是训练数据的最大值和最小值。
如果某行的数据全部相同,此时XMAX=XMIN,除数为0,则此时数据不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210796500.5/2.html,转载请声明来源钻瓜专利网。