[发明专利]基于深度学习的单细胞测序基因表达数据插补方法和系统有效

申请号：	202211055015.9	申请日：	2022-08-31
公开（公告）号：	CN115394358B	公开（公告）日：	2023-05-12
发明（设计）人：	李爱民;牛俊杰;费蓉;周红芳;李军怀;黑新宏;刘雅君;刘光明	申请（专利权）人：	西安理工大学
主分类号：	G16B25/00	分类号：	G16B25/00;G16B40/00;G06F18/23213;G06N3/04;G06N3/08
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	张莹
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习单细胞基因表达数据方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于深度学习的单细胞测序基因表达数据插补方法和系统，涉及生物信息学技术领域，该方法为获取单细胞测序用数据集，其中，所述数据集为多个细胞样本的基因表达水平组成的二维矩阵，即细胞‑基因矩阵；过滤所述数据集的细胞‑基因矩阵，并聚类筛选高表达基因；搭建神经网络模型，并将筛选出的高表达基因输入到神经网络模型进行训练和测试，得到预测模型；将低表达基因输入到预测模型中得到预测结果，将得到的预测结果插补到细胞‑基因矩阵中。本发明使用统计模型筛选出来的高表达基因作为深度学习模型的输入，保留了细胞之间的相似性，得到的基因有更密切的联系，通过神经网络学习细胞间的特征，使得在单细胞插补阶段有更好的准确率。

技术领域

本发明涉及生物信息学技术领域，特别是涉及一种基于深度学习的单细胞测序基因表达数据插补方法和系统。

背景技术

在单细胞转录组测序领域，单细胞基因表达数据插补一向是很重要的研究方向。单细胞基因表达数据矩阵中既有真实表达的零，也有表达值含量过低导致的很多非零项缺失成为零。后者这种现象称为缺失现象。

目前的插补方法往往考虑细胞间的联系，忽略了高表达基因的作用。

发明内容

本发明的目的为了解决上述背景中存在的不足，而提出的一种基于统计模型和深度学习的单细胞测序基因表达数据插补的方法。

为实现上述目的，本发明提供了以下技术方案：

第一方面，本申请实施例提供了一种基于深度学习的单细胞测序基因表达数据插补方法，包括：

获取单细胞测序用数据集，其中，所述数据集为多个细胞样本的基因表达水平组成的二维矩阵，即细胞-基因矩阵；

过滤所述数据集的细胞-基因矩阵，并聚类筛选高表达基因；

搭建神经网络模型，并将筛选出的高表达基因输入到神经网络模型进行训练和测试，得到预测模型；