[发明专利]一种单细胞基因融合检测方法有效
申请号: | 202011451710.8 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112509639B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 席瑞斌;金子捷 | 申请(专利权)人: | 北京大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G16B20/30 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 闫书宁 |
地址: | 100871 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单细胞 基因 融合 检测 方法 | ||
本发明公开了一种单细胞基因融合检测方法。该方法包括如下步骤:将单细胞RNA测序数据进行序列比对和映射,分析映射结果,获得潜在基因融合;建立零点膨胀负二项分布统计模型和训练神经网络,获得每个潜在基因融合显著性和可靠性的评价;根据可靠性以及融合的特征,报告最终的融合基因。本发明可以敏感且精确地检测单细胞基因融合,降低假阳性或漏报率。本发明具有重大的应用价值。
技术领域
本发明属于生物信息学领域,具体涉及一种单细胞基因融合检测方法。
背景技术
融合基因是指由DNA序列重排产生的,包含2个或2个以上基因序列的嵌合体。融合基因是肿瘤基因组中的一种常见变异,很多融合基因是癌症发展的驱动变异,对肿瘤的发生、发展有重要作用。融合基因是一些肿瘤诊断和分类的主要依据,也是癌症药物的重要靶点。由于肿瘤细胞有很强的异质性,病人的不同癌细胞可能会有不同的变异,准确检测肿瘤单细胞的基因变异对研究肿瘤细胞的起源、进化、抗药性乃至肿瘤的治疗都有重要的意义。
单细胞RNA测序是在单个细胞的分辨率上进行高通量测序分析的一项技术,该技术的出现使得高通量大规模单细胞基因融合的检测成为可能。然而,利用已有分析普通RNA测序数据的基因融合检测方法直接检测单细胞基因融合仍有很多问题,主要包括:一、单细胞测序数据有很高的噪声,导致给出的结果的精度很低,得到很多假阳性;二、单独对每个单细胞测序数据独立检测会有敏感度低,漏检率高的问题;三、花费的计算时间和计算资源巨大。由此可见,现有的检测工具不能满足单细胞RNA测序数据的基因融合检测需求,亟需发展利用单细胞RNA测序检测单细胞基因融合的方法。
发明内容
本发明的目的是检测单细胞的基因融合。
本发明首先保护一种单细胞基因融合检测方法,可包括如下步骤:
(1)将单细胞RNA测序数据比对到参考基因组,得到的支持融合的分离序列和不统一序列;
(2)完成步骤(1)后,从分离序列和不统一序列中整合所有的潜在基因融合;
(3)完成步骤(2)后,采用统计模型刻画背景噪声的支持分离序列数的分布,获得每个潜在基因融合的显著性指标;
(4)完成步骤(2)后,训练神经网络学习背景噪声的序列特征,获得每个潜在基因融合为背景噪声的概率;
(5)根据步骤(3)获得的显著性指标和步骤(4)获得的概率,筛选获得显著可靠的潜在基因融合;
(6)从步骤(5)获得的显著可靠的潜在基因融合中筛选符合标准的基因融合,即单细胞的基因融合。
上述方法中,所述单细胞RNA测序数据可为2个以上单细胞的RNA测序数据。
上述任一所述单细胞可为T细胞。
所述步骤(1)中,所述参考基因组可为参考基因组hg19。
所述步骤(1)中,采用STAR软件(版本2.7.4a)进行比对。STAR软件(版本2.7.4a)比对后自动获得分离序列和不统一序列。
所述步骤(1)中,分离序列和不统一序列比对的位置均为基因组上连续75bp以上碱基序列唯一的区域。这样可以防止因不同区域的序列相同导致比对位置错误。
所述步骤(2)中,从分离序列和不统一序列中整合所有的潜在基因融合的步骤可如下:
(2-1)获得分离序列具体的比对位置(根据步骤(1)的结果获得),即对应的潜在基因融合位点;
(2-2)将距离不超过3bp的融合位点看作是同一个融合位点,归并得到一个潜在基因融合的列表,并且记录支持每一个基因融合的全部分离序列与不统一序列的数量;
(2-3)去掉只有一个分离序列支持的潜在基因融合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451710.8/2.html,转载请声明来源钻瓜专利网。