[发明专利]一种面向单细胞RNA测序数据的细胞类型识别方法有效
申请号: | 202110240929.1 | 申请日: | 2021-03-04 |
公开(公告)号: | CN112967755B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 欧阳乐;吴永贤 | 申请(专利权)人: | 深圳大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 518061 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 单细胞 rna 序数 细胞 类型 识别 方法 | ||
本发明针对现有技术的局限性,提出了一种面向单细胞RNA测序数据的细胞类型识别方法,其采用概念分解提取了高维单细胞RNA测序数据的低维特征表示,获得了原始数据的主体信息,降低了数据噪声对模型性能的干扰;同时还采用自表示学习方法来从低维特征表示中学习细胞之间的相似性;因此,本发明的方案对噪声更为不敏感,且具有更强的适应能力;本发明还使用图正则化来整合利用多种子聚类算法的预测结果中蕴含的信息,使得提取的低维特征表示能契合子聚类结果中的关联结构,有助于更准确地从低维特征表示中学习出细胞之间的相似性。本发明改善了模型对原始数据的依赖,并且使得模型具有较好的抗噪性,能够得到更加稳健、准确的识别结果。
技术领域
本发明涉及生物信息学技术领域,具体涉及生物数据挖掘;更具体的,涉及一种面向单细胞RNA测序数据的细胞类型识别方法。
背景技术
许多生物信息分析任务的展开需要知道细胞的类型,如细胞发育轨迹分析、肿瘤细胞亚型分析。但是细胞的真实类型往往是未知的,人工辨别细胞类型的方法一般依靠细胞表型特征如膜蛋白等元件的差异来进行区分,这些方法不仅速度慢、准确率低,还无法辨别细胞在遗传信息方面的差异。聚类分析算法凭借高速的运算能力以及先进的算法设计,成为了识别细胞类型的有效计算分析方法。
近年来,涌现了许多针对单细胞RNA测序数据的聚类算法,这些算法可以大致分为以下几类:基于矩阵分解的方法、基于图论的方法、基于概率模型的方法以及集成聚类方法。由于模型假设和优化策略的不同,这些算法有着各自的优点和缺陷。比如基于矩阵分解的方法把原始细胞样本投影到低维的特征空间中,以更具区分性的特征表示原始数据的样本点。不过矩阵分解模型只关注于缩小原始数据在高维空间中的重构误差,没有考虑数据在低维流形上的结构;而基于图论的方法通过特定的方法来构建细胞之间的关联图,如距离、核方法或近邻关系,然后通过图算法从关联图里提取聚类结构。这类方法根据图中的细胞关联度进行聚类分析,往往具有很好的抗噪性能。不过这类算法需要预定的图构建方法,但是对于不同类型的细胞数据集,很难确定哪种图构建方法能更准确的评估细胞之间的相似性;基于概率模型的方法按照先验知识假设单细胞基因表达数据的概率分布模型,再通过数据集学习模型中的参数,进而获得样本的类别概率。在拥有一定先验知识的前提下,基于概率模型的方法能取得比较好的性能。但在不熟悉数据分布的情况下很难确定样本的分布模型,限制了模型的准确性;集成聚类方法收集多种聚类算法的聚类结果并从中提炼更为准确的聚类结构,参与集成的聚类算法可以统称为子聚类算法,子聚类算法的聚类结果统称为子聚类结果。集成聚类算法可以整合利用各子聚类算法的优点,因此在不同类型的数据集上能取得比较稳定的聚类性能。但是集成聚类通常只考虑子聚类算法的结果,而忽视了原始数据所蕴含的信息,这就容易导致最终的结果过分依赖于子聚类算法的结果。
而公开日为2020.02.14,公开号为:CN110797089A的中国发明专利:一种基于单细胞RNA测序数据识别细胞类型的方法,试图通过将高维矩阵低秩表示模型和图正则化理论结合起来,同时考虑数据的全局结构和局部结构特征来构建优化模型,通过采用交替方向乘子法来求解模型得到可靠的细胞与细胞间相似性矩阵,然后采用谱聚类方法对相似性矩阵进行聚类,以此实现对单细胞进行聚类,识别细胞类型,提高单细胞RNA测序数据的聚类效果,但该方案仍无法解决上述技术问题。
发明内容
针对现有技术的局限,本发明提出一种面向单细胞RNA测序数据的细胞类型识别方法,本发明采用的技术方案是:
一种面向单细胞RNA测序数据的细胞类型识别方法,包括以下步骤:
S1,获取包括单细胞RNA测序数据的原始数据集,使用若干个子聚类算法分别对所述原始数据集进行聚类分析,获得对应的子聚类结果;
S2,运用概念分解的矩阵分解模型提取所述原始数据集的低维特征表示;
S3,构建用于描述细胞相似性的关联矩阵,通过自表示学习获取所述低维特征表示的结构信息,将所述结构信息保存到所述关联矩阵上;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110240929.1/2.html,转载请声明来源钻瓜专利网。