[发明专利]基于深度流形变换网络的高维数据处理方法在审
申请号: | 202110315106.0 | 申请日: | 2021-03-24 |
公开(公告)号: | CN113011508A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 李子青;吴立荣;臧泽林 | 申请(专利权)人: | 西湖大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 李珍珍 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 流形 变换 网络 数据处理 方法 | ||
本申请提出了一种基于深度流形变换网络的高维数据处理方法,该方法包括:获取输入空间;将输入空间的维度通过第一非线性变换降低到隐空间,将隐空间的维度通过第二非线性变换降低到嵌入空间;在输入空间与隐空间之间施加双向散度损失,和/或在隐空间与嵌入空间之间施加双向散度损失,和/或在输入空间与嵌入空间之间施加双向散度损失,使第一非线性变换、第二非线性变换保持结构不变;在隐空间中对输入空间的数据进行聚类,在嵌入空间中可视化降维后的数据。通过本发明,将双向散度损失施加在任何两层间保证网络的局部平滑,防止降维导致的原始数据中的几何或拓扑结构破坏,造成信息损失,使最后聚类的效果变差。
技术领域
本申请涉数据处理技术领域,特别是涉及基于深度流形变换网络的高维数据处理方法。
背景技术
高维数据分析包括三个基本任务:数据降维、聚类和可视化。
经典的聚类算法,如K均值聚类通过测试所有K值的聚类效果,分析聚类结果的类内相似度、类间相似度,从大量聚类结果中选择最优聚类效果对应的k 值。同理,基于高斯混合模型的聚类和谱聚类也是通过一些定义在高维输入空间中的距离或相似性度量做聚类。然而,由于高维数据固有非欧几里得特性,即费欧几里得数据排列不整齐,对于该数据的某个点,难以定义其邻节点,或是不同节点的邻节点的数量不同。因此,当这些上述常见的聚类算法被应用于高维数据时,面对结构分布复杂的数据,聚类的性能一般非常差。
为了处理这个问题,有些方法首先利用主成分分析等数据降维方法将数据从高维输入空间降维到一个较低维度的隐空间,然后再在这个较低维度的隐空间中运行经典的聚类算法。然而,此时数据降维和聚类是两个完全分离的过程,数据降维的过程中可能会破坏原始数据中的几何或者拓扑结构,造成信息的损失,这反而会使聚类的效果变差。
T-SNE和UMAP是目前最流行的两个非线性的数据可视化方法。这两个方法都是首先将输入空间中样本点之间的欧氏距离变换为低维嵌入空间中的相似度,然后再通过最小化KL散度或者交叉熵形式的成本函数来找到一个合适的低维嵌入,进而实现数据的可视化。T-SNE和UMAP的缺陷有:(1)它们在数据降维的过程中可能会破坏原始数据中的几何或者拓扑结构,造成信息的损失;(2) 它们可能会造成one-to-many的映射,同一个样本点降维后被映射为多个不同的值;(3)它们都是非深度的方法,采取直接优化嵌入的方式,而非优化网络参数,难以与现有的深度学习技术相结合。
数据降维、聚类和可视化是三个与高维数据分析密切相关的基本任务,然而目前这三个任务一般都是独立完成的,这不仅会影响它们的性能,也很容易使得各个任务之间出现不一致,没有办法真实地揭示高维数据内在的几何和拓扑信息,导致数据分析时很容易得出错误,得出误导性的结论。
综上,针对现有技术中高维数据分析中存在的上述问题,目前尚未得到有效的解决方案。
发明内容
本申请实施例提供了基于深度流形变换网络的高维数据处理方法,能够将无监督的双向散度损失施加在网络的任何层之间,这样可以保证神经网络的映射稳定且平滑,避免数据在映射过程中出现坍塌和过平滑问题。
第一方面,本申请实施例提供了一种深度流形变换网络,包括一自动编码器,自动编码器被配置成:包括编码器网络和解码器网络,编码器网络和解码器分别包括多个密集块层,
在编码器网络中通过多个密集块层的第一非线性变换将输入空间的维度降低到隐空间,再通过多个密集块层的第二非线性变换将隐空间的维度降低到嵌入空间,在解码器网络中通过多个密集块层的第三非线性变换将隐空间的维度恢复到重建空间;
基于输入空间和重建空间计算重建损失,将重建损失加到密集块层中;
在输入空间和隐空间之间和/或隐空间和嵌入空间和/或输入空间和嵌入空间之间施加双向散度损失。
第二方面,本申请实施例提供了一种基于深度流形变换网络的高维数据处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西湖大学,未经西湖大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110315106.0/2.html,转载请声明来源钻瓜专利网。