[发明专利]样本同源性判定模型及其建立方法和应用在审
申请号: | 202210543729.8 | 申请日: | 2022-05-19 |
公开(公告)号: | CN114944188A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 许腾;巫文才;陈文景;沈杨;秦子颖;李永军;王小锐 | 申请(专利权)人: | 广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B30/10;G16B40/20 |
代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 李海恬 |
地址: | 510130 广东省广州市高新技术产业开发*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 同源性 判定 模型 及其 建立 方法 应用 | ||
本发明涉及一种样本同源性判定模型及其建立方法和应用,属于基因检测技术领域。该方法包括以下步骤:样本收集:以同一来源的两样本为阳性样本对组成阳性样本集合,以不同来源的两样本为阴性样本对组成阴性样本集合;SNV数据收集:将测序数据比对至人类参考基因组,获得各样本单核苷酸变异位点SNV情况,任意挑选样本对,统计分型不一致位点数与共同检出位点数的比值为错配率;模型构建:以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,根据样本共同检出位点数量的梯度范围对应匹配的错配率,构建分类模型。该模型能够用于样本测序深度较低的场景,完成样本的同源性判定,具有成本低且高效快速的优势。
技术领域
本发明涉及基因检测技术领域,特别是涉及一种样本同源性判定模型及其建立方法和应用。
背景技术
近年来,随着高通量测序数据普及和各种应用研究和开发,病原宏基因组检测作为一项崭新的微生物检测方法出现在各大医院。然而,病原宏基因组整个过程步骤繁杂,包括核酸提取,去宿主,构建高通量测序文库,最后上机测序到生物信息分析等。在整个实验过程中都有相应的质控指标进行监控实验过程是否出现问题。但难免会出现人工操作失误,例如样本标签填错,混淆吸取溶液等等。且当一个患者分开送检一份或多份样本情况下,为了排除出现人工操作或其他导致检出菌谱差异大的情况下,需要确定两份或多份样本是否来自于同一个患者。
由此带来的问题在于,如何在高通量病原宏基因组超低测序深度情况下,对样本的同源性(同一个患者)进行区分。
常规技术中,在司法鉴定领域常用STR去区分不同样本,在群体遗传学研究中常用多态性高的单核苷酸位点组合用于区分不同样本,由于宏基因组测序时效性要求高和测序读长短无法满足常规STR和SNP分型。司法鉴定实验室也常用毛细管电泳法进行对样本的STR分型,淡需要增加实验次数和使用的样本量,由于病原宏基因组样本的特殊性,一般不易获得或获取的量很少,如脑脊液或肺泡关系液。同时考虑到病原宏基因组样本时效性的问题,从接收样本到出具报告整个过程的时效性要求很高。所以不能因为增加了分析步骤而导致拖延了报告出具时间,所以判定同源性的分析步骤不能增加太多时间。
发明内容
基于此,有必要针对上述问题,提供一种样本同源性判定模型的建立方法,该方法建立得到的样本同源性判定模型,能够用于样本测序深度较低的场景(如宏基因组检测)中,无需另外增加实验,利用原始数据即可完成样本是否来自于同一个患者的同源性判定。
一种样本同源性判定模型的建立方法,包括以下步骤:
样本收集:以同一来源的两样本为阳性样本对,以不同来源的两样本为阴性样本对,收集若干阳性样本对组成阳性样本集合,收集若干阴性样本对组成阴性样本集合;
SNV数据收集:将上述样本基于相同的测序方法进行测序得到的测序数据比对至人类参考基因组,获得各样本序列在人类基因组的比对情况,获得各样本单核苷酸变异位点SNV情况,任意挑选样本对,统计分型不一致位点数与共同检出位点数的比值,记为错配率;
模型构建:以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,并根据样本共同检出位点数量的梯度范围,对应匹配的错配率,构建分类模型,即为样本同源性判定模型。
上述模型的建立方法,将高通量测序数据到SNV生成的全部关键参数纳入训练模型中,可适配不同应用方向的数据,找到每个集合中关键参数,并获得低噪音错配率进行作为判定模型的输入,从而提高模型判断准确性。
在其中一个实施例中,所述目标序列区域通过以下方法确定:从数据库获取与样本来源相同人种的多态性位点集合,分别以多态性位点百分率为30%-70%的外显子位点和/或多态性位点百分率为10%-90%的基因组位点为目标序列区域。可以理解的,由于不同人种的多态性位点分布存在差异,应以相应人种数据进行分析,以提高模型性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司,未经广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210543729.8/2.html,转载请声明来源钻瓜专利网。