[发明专利]基于混合实验组和对照组单细胞样本的差异分析方法及系统在审
申请号: | 202210262567.0 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114864003A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 高俊晓;殷鹏;李楠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G16B20/40 | 分类号: | G16B20/40;G16H50/20;G06K9/62 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 实验组 对照 单细胞 样本 差异 分析 方法 系统 | ||
1.一种基于混合实验组和对照组单细胞样本的差异分析方法,其特征在于,该方法包括如下步骤:
a.获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;
b.从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;
c.根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;
d.对细胞亚群进行差异分析。
2.如权利要求1所述的方法,其特征在于,所述的步骤a包括:
对原始表达矩阵进行质量控制,包括剔除低质量的细胞和基因;其中,低质量的细胞是指:表达基因数量较少,线粒体基因表达比例较高的细胞;低质量的基因是指:在细胞中表达比例较低的基因。
3.如权利要求2所述的方法,其特征在于,所述的步骤a还包括:
通过对唯一分子识别标签计数UMI归一化缩小数值差异,采用LogNormalization方法,公式如下:
其中,i表示细胞,j表示基因;
在对数据归一化之后,继续对数据进行缩放,公式如下:
4.如权利要求3所述的方法,其特征在于,所述的步骤b包括:
通过对基因在细胞中的表达均值和方差进行建模,筛选高变基因,对单细胞在高变基因中的表达数据进行主成分分析,并可视化每个主成分的方差百分比,选择排名靠前的主成分用于后续聚类分析。
5.如权利要求4所述的方法,其特征在于,所述的步骤c具体包括:
采用基于图的聚类方法:首先计算每个细胞之间的相互距离以确定每个细胞的k最近邻,然后计算每个细胞与其k最近邻之间的邻域重叠构造共享最近邻图;公式如下,其中A,B代表两个细胞的“邻居”细胞数:
6.如权利要求5所述的方法,其特征在于,所述的步骤c还包括:
使用Louvain算法作为模块化优化函数确定细胞亚群的数量:通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇;对于加权图,模块性计算公式如下,其中,m是图中边总数,i,j代表两个节点(即细胞),Aij代表两个节点的权重,ki,kj代表节点i,j所有边缘权重之和,ci,cj代表节点i,j的模块,δ是Kronecker delta函数:当x=y时,δ(x,y)=1;否则为0:
7.如权利要求6所述的方法,其特征在于,所述的步骤d具体包括:
对每群细胞亚群计算差异基因:比较本群细胞和除本群细胞之外所有细胞的基因表达差异,使用Wilcoxon秩和检验方法进行差异表达分析。
8.一种基于混合实验组和对照组单细胞样本的差异分析系统,其特征在于,该系统包括获取模块、筛选模块、聚类分析模块、差异分析模块,其中:
所述获取模块用于获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;
所述筛选模块用于从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;
所述聚类分析模块用于根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;
所述差异分析模块用于对细胞亚群进行差异分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262567.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:曲面玻璃的印刷方法及系统
- 下一篇:一种船舶传染性疾病防控送风系统及方法