[发明专利]基于深度学习的单细胞测序基因表达数据插补方法和系统有效
申请号: | 202211055015.9 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115394358B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 李爱民;牛俊杰;费蓉;周红芳;李军怀;黑新宏;刘雅君;刘光明 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B40/00;G06F18/23213;G06N3/04;G06N3/08 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 单细胞 基因 表达 数据 方法 系统 | ||
本发明涉及基于深度学习的单细胞测序基因表达数据插补方法和系统,涉及生物信息学技术领域,该方法为获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞‑基因矩阵;过滤所述数据集的细胞‑基因矩阵,并聚类筛选高表达基因;搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞‑基因矩阵中。本发明使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。
技术领域
本发明涉及生物信息学技术领域,特别是涉及一种基于深度学习的单细胞测序基因表达数据插补方法和系统。
背景技术
在单细胞转录组测序领域,单细胞基因表达数据插补一向是很重要的研究方向。单细胞基因表达数据矩阵中既有真实表达的零,也有表达值含量过低导致的很多非零项缺失成为零。后者这种现象称为缺失现象。
目前的插补方法往往考虑细胞间的联系,忽略了高表达基因的作用。
发明内容
本发明的目的为了解决上述背景中存在的不足,而提出的一种基于统计模型和深度学习的单细胞测序基因表达数据插补的方法。
为实现上述目的,本发明提供了以下技术方案:
第一方面,本申请实施例提供了一种基于深度学习的单细胞测序基因表达数据插补方法,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
作为本发明的进一步方案,所述数据集从10X Genomics单细胞数据库下载,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
作为本发明的进一步方案,过滤所述数据集的细胞-基因矩阵,包括以下步骤:
遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;
若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;
删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵;其中,所述原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
作为本发明的进一步方案,聚类筛选高表达基因时,包括以下步骤:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
作为本发明的进一步方案,搭建神经网络模型,并将筛选后的高表达基因输入到神经网络模型进行训练和测试,得到预测模型,包括:
将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211055015.9/2.html,转载请声明来源钻瓜专利网。