[发明专利]一种基于深度网络自适应的scRNA-seq细胞类型识别方法在审
| 申请号: | 202111471768.3 | 申请日: | 2021-12-01 |
| 公开(公告)号: | CN114121158A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 王树林;刘孟林 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 网络 自适应 scrna seq 细胞 类型 识别 方法 | ||
本发明涉及生物信息学中的数据挖掘,特别是涉及对scRNA‑seq数据的挖掘。具体涉及一种基于深度网络自适应的scRNA‑seq细胞类型识别方法。本发明的方法包括对scRNA‑seq数据的处理;构建神经网络训练scRNA‑seq数据;加入自适应层优化神经网络架构以克服不同批次数据集之间的差异性;对类型信息未知的scRNA‑seq数据集中的细胞类型进行准确识别。本发明可用于识别未知scRNA‑seq数据集的细胞类型,可有效克服类型信息已知的数据集和类型信息未知的数据集之间的技术差异和批次效应影响。
技术领域
本发明涉及生物信息学中的数据挖掘,特别是涉及对scRNA-seq数据的挖掘,具体涉及一种基于深度网络自适应的scRNA-seq细胞类型识别方法。
背景技术
细胞被认为是生物体基本的结构和功能单位。人体细胞中包含大约2万个基因,每个细胞存在自身特异的基因表达模式,仅对部分基因进行表达。这导致了细胞特异性的蛋白质成分和生物功能。scRNA-seq以单个细胞为单位,通过全基因组或转录组扩增进行高通量测序,能够揭示单个细胞的基因结构和基因表达状态并反映细胞间的异质性。近十年scRNA-seq技术发展迅速,测序数据的规模从几十个增加到几千个乃至几百万细胞,出现了大量新的测序平台,如10xGenomics Chromium、inDrop和Drop-seq。细胞类型的识别在scRNA-seq数据的分析中起着重要作用,良好注释的scRNA-seq数据使生物学家能够进行进一步的下游分析并提高我们对疾病细胞机制的理解。
目前通过生物信息学识别scRNA-seq数据类型的方法主要分为三类:第一类方法首先对细胞群进行聚类,然后通过差异表达分析找到每个簇特有的标记基因,最后根据其基因的本体功能对细胞进行注释。然而这类方法的泛化性能通常较差。此外,随着测序数据规模的增加,通过寻找标记基因来注释细胞的任务变得越来越繁重和耗时。第二类方法是利用注释良好的参考数据集的信息来辅助新数据中的细胞类型识别。其中有代表性的方法通过将目标数据集中的细胞投影到一个由注释良好的源数据集中选择的高信息性基因决定的空间,然后根据目标数据中的细胞与源数据中平均细胞类型特异性基因表达的相关性,为它们分配细胞身份。然而这类方法只能利用参考数据中的细胞类型信息,忽略了目标数据中的有用信息。最后一类方法主要是通过深度神经网络克服大规模scRNA-seq数据类型识别的负担,这些方法使用非线性自动编码器将测序数据嵌入到低维空间中进行后续的聚类和分类任务。同样这些方法也没有考虑技术变异和批次效应可能导致的性能崩溃,尤其是当目标数据和参考数据来自不同的测序平台时,细胞分类的准确度会大大降低。
综上所述,现有的方法没有充分考虑到不同测序平台、不同组织、不同物种数据集之间的差异性,极少地充分利用注释良好的参考数据集和未知数据集的基因表达信息和数据分布信息,因此如何设计一种鲁棒性的方法对未知scRNA-seq细胞类型进行准确识别仍然是一个挑战。
发明内容
本发明针对以上方法存在的问题和scRNA-seq细胞类型准确识别的重要性,提出了一种基于深度网络自适应的scRNA-seq细胞类型识别方法。本发明的方法采用深度网络自适应对注释良好的参考数据集和未知的目标数据集进行基因表达信息提取和数据分布对齐,是一种对不同批次scRNA-seq数据集进行细胞类型识别的方法。所叙述方法步骤包括:
1.数据收集阶段
本方法从多个数据平台收集了多种情况的数据集。第一类是通用的基准数据集,通过两种测序方式生成,分别是10x和CelSeq2;第二类是采用不同测序方式生成的人类胰腺组织数据集,通过五种测序方式生成,分别是CelSeq、CelSeq2、SmartSeq2、Fluidigmc1、inDrop;第三类是同一物种内不同组织的数据集,从Figshare上下载的小鼠衰老细胞图谱(Tabula Muris Senis)数据集,包括来自96307个细胞的23341个基因表达信息,包含22种组织。综合上述数据集可评估本方法在多个物种下不同组织的细胞类型的识别准确性。
2.数据预处理阶段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111471768.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化激光共聚焦显微成像装置
- 下一篇:神经患者口腔清洁护理器





