[发明专利]基于深度学习的单细胞测序基因表达数据插补方法和系统有效
申请号: | 202211055015.9 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115394358B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 李爱民;牛俊杰;费蓉;周红芳;李军怀;黑新宏;刘雅君;刘光明 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B40/00;G06F18/23213;G06N3/04;G06N3/08 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 单细胞 基因 表达 数据 方法 系统 | ||
1.一种基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中;
其中,聚类筛选高表达基因时,包括以下步骤:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
2.根据权利要求1所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,所述数据集从10X Genomics单细胞数据库下载,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
3.根据权利要求2所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,过滤所述数据集的细胞-基因矩阵,包括以下步骤:
遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;
若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;
删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵;其中,所述原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
4.根据权利要求3所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,搭建神经网络模型,并将筛选后的高表达基因输入到神经网络模型进行训练和测试,得到预测模型,包括:
将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;
利用训练样本数据集对神经网络模型进行训练,利用测试样本数据集对神经网络模型进行测试,得到预测模型;
其中,所述神经网络模型为搭建的五层神经网络模型,所述神经网络模型的第一层为输入层,第二层为全连接层,激活函数为线性整流函数,第三层为Dropout层,第四层为全连接层,第五层为输出层。
5.根据权利要求4所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,将得到的预测结果插补到细胞-基因矩阵中,替换细胞-基因矩阵中低表达基因的零值。
6.根据权利要求5所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,聚类筛选高表达基因时,基于原始矩阵进行聚类分析,以每个细胞作为单个节点进行相似性寻找来源于同一个亚群的细胞,形成一个个簇,在输入神经网络模型时以聚类好的簇为单位,每个簇使用一个新的神经网络,选择每个簇中的高表达基因分块进入神经网络模型训练。
7.根据权利要求6所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,将低表达基因输入到预测模型中得到的预测结果为低表达基因体现的表达值,且预测结果按照簇的方式插补到原始矩阵中。
8.根据权利要求6或7所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,所述细胞-基因矩阵保存为csv文件,预测结果插补到原始矩阵后更新并保存为新的csv文件。
9.一种基于深度学习的单细胞测序基因表达数据插补系统,其特征在于,基于权利要求1-8中任意一项所述基于深度学习的单细胞测序基因表达数据插补方法进行识别细胞中的缺失值,所述基于深度学习的单细胞测序基因表达数据插补系统,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵;
基因筛选模块,用于过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
模型训练模块,用于搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;以及
预测插补模块,用于将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中;
其中,基因筛选模块进行聚类筛选高表达基因,包括:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211055015.9/1.html,转载请声明来源钻瓜专利网。