[发明专利]一种基于深度对抗变分自编码器的scRNA-seq数据降维方法在审
申请号: | 202111388132.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114067915A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王树林;任亚琪 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 对抗 编码器 scrna seq 数据 方法 | ||
本发明涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过深度学习的方法对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。本发明的方法包括对scRNA‑seq数据进行收集和预处理;构建深度对抗变分自编码器模型;使用构建的模型对预处理过的数据进行降维;将深度对抗变分自编码器与Bhattacharyya距离结合;对降维后的结果进行聚类分析。我们的模型约束了数据结构,并通过深度对抗变分自编码器模块进行降维。以标准化互信息这一评价指标为依据,在三个真实的scRNA‑seq数据集上进行的实验表明,本方法具有不错的性能。
技术领域
本发明涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。
背景技术
单细胞RNA测序(scRNA-seq)不是表面上理解的仅对单个细胞进行测序,我们可以理解为这项测序技术可以对单个细胞的基因组或者转录组进行测序,即单细胞水平上的测序。传统的测序方法一般是在多细胞的水平上进行的,因而丢失了异质性的信息。更确切地说,传统的测序方法显示的信息是多细胞级别的平均信息。
随着scRNA-seq技术的发展,产生了海量的scRNA-seq数据,为辨别生物组织中各种细胞种群和全面揭示细胞之间的异质性提供了强有力的数据支撑。通过对scRNA-seq数据的降维和聚类,可以有效地识别细胞种群,为研究胚胎发育过程,免疫系统工作机理和肿瘤细胞成因等工作提供了重要基础。但是由于测序技术手段的限制以及基因表达高度复杂等原因,scRNA-seq数据普遍存在噪声较大、特征维度较高、稀疏性较强等特点,仅靠人工难以挖掘出有价值的生物信息。scRNA-seq数据分析中至关重要的一步是基于基因表达将属于同一类型的细胞进行分组,这本质上是细胞聚类的问题。现有研究在聚类之前会对scRNA-seq数据进行降维。然而,scRNA-seq数据高噪声、数据形状多样等特点使得许多降维方法不再适用;对样本数(细胞)远少于特征数(基因)的数据进行聚类,这对聚类而言同样是个巨大挑战。因此,如何有效地处理数据,挖掘细胞之间的异质性、区分不同的细胞种群成为目前研究的热点。
目前通过生物信息学来对scRNA-seq数据进行降维的方法可以为三类:第一类为线性方法,主要代表有两个,其中一个是主成分分析(PCA),它是最常用的降维方法之一,它通过定义具有连续最大方差(即主成分)的原始数据点的线性组合,将观测值转换为潜在空间。另一个线性方法是因子分析ZIFA,它与PCA类似,但其目的主要是通过描述相关变量之间的可变性来建模相关性而不是协方差。线性方法的优点是实现快速简单,应用广泛;但scRNA-seq数据本质上是非线性的,因此它不适用于所有的数据集。第二类是非线性的方法,它的优点是使用更加灵活,可以提供美观、更容易通过肉眼观察来解释结果。但这类方法往往需要由用户手动定义参数,会存在重要信息丢失、特征提取不充分等问题。前两类方法属于传统的,第三类是基于深度学习的方法,这类方法的优点是所提取的特征代表性强,但也存在可解释性较差,有些方法使用深层模型,会存在运行时间相对较长等不足。
随着scRNA-seq技术的发展,对处理scRNA-seq数据的方法要求越来越高,更准确和高效的单细胞RNA测序数据一直是研究的热点问题。综上所述,现有的对scRNA-seq数据降维的方法存在重要信息丢失,特征提取不充分等问题,严重影响了后续的数据分析。因此,如何设计更合理,效果更好的降维方法是亟待深入探讨研究的关键问题。
发明内容
本发明针对以上方法存在的问题与scRNA-seq数据的复杂性,我们提出了一种基于深度对抗变分自编码器的scRNA-seq数据降维方法。本发明的方法可以有效的解决现有降维方法存在的重要信息丢失,特征提取不充分等问题,并获得了更好的聚类精度。所叙述方法的步骤包括:
1.数据预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388132.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:BG801钢球的锻造方法
- 下一篇:基于电能替代的能量利用评估方法