[发明专利]基因高通量测序数据突变检测方法有效
申请号: | 201711214506.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107944225B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 李超 | 申请(专利权)人: | 慧算医疗科技(上海)有限公司 |
主分类号: | G16B20/50 | 分类号: | G16B20/50 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 李庆 |
地址: | 201209 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 通量 序数 突变 检测 方法 | ||
本发明提供一种基因高通量测序数据突变检测方法,包括步骤:S1:获取一基因样本的高通量测序数据;S2:生成所述基因样本的高通量测序数据的各基因序列的位置信息标签;S3:根据所述位置信息标签将各所述基因序列分组并计算获得一突变总量;S4:将所述突变总量代入一背景模型输出突变检测结果。本发明的一种基因高通量测序数据突变检测方法,采用虚拟分子标签与背景数据库结合的方法降低噪音,提高检测的特异性和敏感性,可在不增加实验成本的前提下能有效的降低实验中的随机误差,结合背景数据库对系统误差的校正,可以达到准确鉴定低丰度突变的目的。
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基因高通量测序数据突变检测方法。
背景技术
在过去的肿瘤基因突变检测的临床与科研应用中我们通常只关注肿瘤组织中高丰度基因突变的情况。低丰度突变由于突变核酸含量低,在测序覆盖度较低的情况下极易出现漏检或与假阳性的情况。但在某些应用场景下,例如通过液态活检的方式检测血液中的低丰度肿瘤突变核酸,需要准确的检测出低丰度的突变。通过高通量测序靶向捕获或扩增技术结合高深度的测序,可以提高重要肿瘤突变位点的测序覆盖度,提高检测的灵敏度。但是由于高通量测序中天然存在的噪音,仅从实验角度仍然很难将真实突变和噪音点区分开来,必须通过算法建立降噪和突变检测的模型解决上述问题。
现有方案中采用健康人的测序数据作为背景值,通过正态分布拟合确定每个位点的背景噪音阈值,从而区分真阳性点和噪音。但是此种方案存在以下几个问题:1.高通量测序实验及数据产生存在批次效应,通过健康人的测序数据建立的背景模型能够去除测序系统本身存在的系统误差,但是对于每次实验中随机产生的实验误差无法有效去除;2.建立健康人群的背景数据需要测定大量位点的大样本量的数据,所需成本较高,对于背景数据库中暂未覆盖的位点无法起到降低噪音的作用。
发明内容
针对上述现有技术中的不足,本发明提供一种基因高通量测序数据突变检测方法,采用虚拟分子标签与背景数据库结合的方法降低噪音,提高检测的特异性和敏感性,可在不增加实验成本的前提下能有效的降低实验中的随机误差,结合背景数据库对系统误差的校正,可以达到准确鉴定低丰度突变的目的。
为了实现上述目的,本发明提供一种基因高通量测序数据突变检测方法,包括步骤:
S1:获取一基因样本的高通量测序数据;
S2:生成所述基因样本的高通量测序数据的各基因序列的位置信息标签;
S3:根据所述位置信息标签将各所述基因序列分组并计算获得一突变总量;
S4:将所述突变总量代入一背景模型输出突变检测结果。
优选地,所述S2步骤进一步包括步骤:
S21:通过一序列对比算法将所述各基因序列对比到一参考基因组,形成各所述基因序列的比对信息;
S22:将所述比对信息存储于一SAM/BAM格式文件中;
S23:根据所述SAM/BAM格式文件判断各所述基因序列的序列来源的模板链Ti,1≤i≤n,n为所述基因序列个数;
S24:根据所述序列来源的模板链Ti和所述SAM/BAM格式文件生成各所述基因序列的位置信息标签。
优选地,所述S23步骤进一步包括步骤:
自所述SAM/BAM格式文件中提取每一条所述基因序列的一第一比对起始位置Pi、一同片段对比序列的一第二对比起始位置Qi、正负链信息Si和所述基因序列的序列号Ri;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧算医疗科技(上海)有限公司,未经慧算医疗科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711214506.2/2.html,转载请声明来源钻瓜专利网。