[发明专利]一种基于深度对抗变分自编码器的scRNA-seq数据降维方法在审
申请号: | 202111388132.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114067915A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王树林;任亚琪 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 对抗 编码器 scrna seq 数据 方法 | ||
1.一种基于深度对抗变分自编码器的scRNA-seq数据降维方法,其特征在于实施步骤:
(1)数据预处理;收集来自不同物种、不同类型、不同细胞数量的scRNA-seq数据集;对收集到的原始的scRNA-seq数据采用方差过滤的方法进行预处理,并利用零膨胀负二项分布对输入的数据进行重建,得到无噪音数据;
(2)构建深度对抗变分自编码器模型,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架;
(3)利用构建的深度对抗变分自编码器对预处理过的scRNA-seq数据进行降维,利用自动编码器的中间隐藏层学习到隐藏层特征向量,并对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量与所选的先验分布进行匹配;
(4)根据基于Wesserstein距离的方案,提出了深度对抗变分自动编码器与Bhattacharyya距离相结合的方法;
(5)使用ZINB条件似然来重构scRNA-seq数据的解码器输出,并应用k-means聚类算法对降维后的数据进行聚类,得到标准化互信息分数。
2.根据权利要求1所述的一种基于深度对抗变分自编码器的scRNA-seq数据降维方法,其特征在于收集数据并对收集到的单细胞RNA测序数据进行预处理:
我们收集了来自不同物种、不同类型、不同细胞数量、真实的三个scRNA-seq数据集,然后使用方差过滤的方法对收集的数据进行了预处理,以获得720个跨细胞的最高方差基因。
具体的,我们对以下三个数据集进行了数据预处理的操作。
(1)cortex数据集,它具有7种不同细胞类型的基本事实标签,由来自小鼠大脑的体感皮层和海马区的3005个细胞组成;
(2)对小鼠视网膜区域的细胞进行分类的Macoskco-44k数据集;
(3)健康人的荧光激活细胞的分类细胞组成的Zheng-73k数据集,主要包括T细胞、NK细胞和B细胞;
并利用零膨胀负二项分布对输入的数据进行重建,为scRNA-seq数据提供更好的拟合,得到无噪音数据。
3.根据权利要求1所述的一种基于深度对抗变分自编码器的scRNA-seq数据降维方法,其特征在于构建一个深度对抗变分自编码器,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架,具体包括:
深度对抗变分自编码器采用了对抗性自动编码器与变分自动编码器两者结合的结构。
(1)对抗性自动编码器(AAE)
对抗性自动编码器(AAE)是生成性对抗网络(GAN)模型的变体,通过使用GAN框架将自动编码器转换为生成模型的概率自动编码器。
生成性对抗网络(GAN)框架的思想是在两个神经网络(生成性模型G和判别模型D)之间建立了最大—最小对抗性博弈。判别器模型D(x)是一个神经网络,用于计算数据空间中的点x是我们试图建模的数据分布(即正样本)中的样本概率,而不是生成模型中(负样本)的样本概率。同时,生成模型使用函数G(z)逐渐学习将样本z从先验分布p(z)变换到数据空间。G(z)被训练成以最大限度地混淆鉴别器,使其相信它生成的样本来自数据分布。生成模型通过利用D(x)相对于x的梯度进行训练,并使用它来修改其参数,从而将鉴别模型与其生成的样本完全混淆。该方案可以形式化为以下类型的极小极大目标:
公式(1)中,pdata是数据分布,p(z)是模型分布。
生成器G和鉴别器D都可以建模为完全连接的神经网络,然后使用合适的优化器通过反向传播进行训练。在本发明的实验中,我们使用自适应矩估计(ADAM)来代替了传统的随机梯度下降的方法,且自适应矩估计方法是随机梯度下降方法的拓展,其更适合于数据比较稀疏的情况。
(2)变分自动编码器VAE
变分自动编码器VAE是自动编码器模型的一种变体,旨在借助低维潜在变量z对高维的空间x中数据点的分布P(x)进行建模。整个模型分为两个过程,首先是在潜在低维子空间中生成z的样本,然后将它们映射到原始空间x。关键点是生成具有高恢复观察到的数据矩阵x的概率。这样,生成的z就有可能捕捉到原始数据的内在信息。理论上,生成z的最佳选择是后验P(z|x),然而,它通常过于复杂和难以处理。VAE尝试使用变分概率Q(z|x)来近似后验,通过最小化Q(z|x)和P(z|x)之间的Kullback-Leibler(KL)散度。
该方案可以通过使用基于梯度的方法最大化以下目标来训练:
其中DKL是Kullback-Leibler散度,pmodel(z)被视为解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388132.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:BG801钢球的锻造方法
- 下一篇:基于电能替代的能量利用评估方法