[发明专利]样本同源性判定模型及其建立方法和应用在审
申请号: | 202210543729.8 | 申请日: | 2022-05-19 |
公开(公告)号: | CN114944188A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 许腾;巫文才;陈文景;沈杨;秦子颖;李永军;王小锐 | 申请(专利权)人: | 广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B30/10;G16B40/20 |
代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 李海恬 |
地址: | 510130 广东省广州市高新技术产业开发*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 同源性 判定 模型 及其 建立 方法 应用 | ||
1.一种样本同源性判定模型的建立方法,其特征在于,包括以下步骤:
样本收集:以同一来源的两样本为阳性样本对,以不同来源的两样本为阴性样本对,收集若干阳性样本对组成阳性样本集合,收集若干阴性样本对组成阴性样本集合;
SNV数据收集:将上述样本基于相同的测序方法进行测序得到的测序数据比对至人类参考基因组,获得各样本序列在人类基因组的比对情况,获得各样本单核苷酸变异位点SNV情况,任意挑选样本对,统计分型不一致位点数与共同检出位点数的比值,记为错配率;
模型构建:以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,并根据样本共同检出位点数量的梯度范围,对应匹配的错配率,构建分类模型,即为样本同源性判定模型。
2.根据权利要求1所述的样本同源性判定模型的建立方法,其特征在于,所述目标序列区域通过以下方法确定:从数据库获取与样本来源相同人种的多态性位点集合,分别以多态性位点百分率为30%-70%的外显子位点和/或多态性位点百分率为10%-90%的基因组位点为目标序列区域。
3.根据权利要求2所述的样本同源性判定模型的建立方法,其特征在于,当所述样本来源于危重病患者,所述目标序列区域还包括线粒体序列区域。
4.根据权利要求1所述的样本同源性判定模型的建立方法,其特征在于,所述SNV过滤条件为:过滤去除测序深度为3x以下的位点,以及过滤去除测序质量低于15以下的位点。
5.根据权利要求1所述的样本同源性判定模型的建立方法,其特征在于,所述基因型差异包括:杂合子和纯合子;当测序深度小于3x以下时,过滤去除杂合子分型的位点。
6.根据权利要求1-5任一项所述的样本同源性判定模型的建立方法,其特征在于,所述模型构建步骤中,以控制变量的正交试验方法,控制一个参数变化,其它参数固定的条件,迭代分析得到每个参数变化下的样本错配率。
7.根据权利要求6所述的样本同源性判定模型的建立方法,其特征在于,所述模型构建步骤中,根据参数变化条件下的错配率数值,以支持向量机模型SVM二分类模型进行分类模型的构建。
8.根据权利要求1所述的样本同源性判定模型的建立方法,其特征在于,在所述模型构建步骤之后,还包括以下模型优化步骤:另行收集若干样本组成验证样本集合,以所述验证样本集合对所述样本同源性判定模型进行验证,并根据验证结果优化模型。
9.权利要求1-8任一项所述的样本同源性判定模型的建立方法建立得到的同源性判定模型。
10.权利要求9所述的同源性判定模型在宏基因组检测样本同源性判断中的应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司,未经广州微远基因科技有限公司;广州微远医疗器械有限公司;广州微远医学检验实验室有限公司;深圳微远医疗科技有限公司;微远(深圳)医学研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210543729.8/1.html,转载请声明来源钻瓜专利网。