[发明专利]二维分布结构判定的单细胞转录组测序数据聚类推荐方法有效
申请号: | 202110061290.0 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112750502B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 李敏;田宇;郑瑞清 | 申请(专利权)人: | 中南大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B35/00;G16B30/00;G06K9/62 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 熊开兰 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二维 分布 结构 判定 单细胞 转录 序数 类推 方法 | ||
1.一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,其特征在于,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计基因在每个细胞中的表达量得到基因表达矩阵,并进行过滤和标准化处理;然后通过均匀流形近似和投影构建二维特征矩阵,并将二维特征矩阵进行线性归一化;
步骤2,根据归一化后的二维特征矩阵,计算每两个细胞间的欧式距离,并建立基于距离矩阵的细胞最小生成树;
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;所述自适应阈值根据细胞数N定义得到;
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中,对二维特征矩阵进行线性归一化的公式为:
其中,Y′表示通过均匀流形近似和投影构建的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量的最大值和最小值。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中,对归一化后的二维特征矩阵计算细胞间距离的公式为:
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
4.根据权利要求1所述的方法,其特征在于,所述步骤2中,基于距离矩阵,通过快速EMST双树Boruvka算法,建立基于距离矩阵的细胞最小生成树。
5.根据权利要求1所述的方法,其特征在于,所述步骤3中,根据细胞数N定义自适应阈值的公式为:
Threshold=λ×pCR
其中,Threshold为定义的自适应阈值,λ=5为默认常数值,pCR为单个细胞分辨率,且
6.根据权利要求1所述的方法,其特征在于,所述步骤3中,若细胞最小生成树中所有边长均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
7.根据权利要求6 所述的方法,其特征在于,所述预设比例为8:2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110061290.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:腰椎保护装置
- 下一篇:图像配准方法、装置、计算机设备和存储介质