[发明专利]基于贝叶斯与泊松分布检验的已知变异检出方法和装置有效
申请号: | 201610407552.3 | 申请日: | 2016-06-08 |
公开(公告)号: | CN107480470B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 刘继龙;刘足;程少敏;郭凤明;李世勇 | 申请(专利权)人: | 广州华大基因医学检验所有限公司;广州华大基因科技有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/50 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 孙银行;彭家恩 |
地址: | 510006 广东省广州市番禺区大学城小谷围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 分布 检验 已知 变异 检出 方法 装置 | ||
1.一种基于贝叶斯与泊松分布检验的已知变异检出方法,其特征在于,所述方法包括:
提供测序读长碱基序列、参考基因组序列和假设已知变异位点存在时推算出的测序读长序列;
将所述假设已知变异位点存在时推算出的测序读长序列与所述测序读长碱基序列进行比对检测,找到每一位点变异发生时的变异特征并找到能覆盖到该位点的所有测序读长碱基序列;
针对所述变异特征对应的每一位点,在贝叶斯检验模型下,假设模型M0代表该位点不存在变异,与所述参考基因组序列不同的碱基是系统误差,假设模型代表该位点由所述参考基因组碱基r变异为m真实存在,并且等位基因突变频率为f,对于既不为r也不为m的碱基当作系统误差,判断所述模型的概率与模型M0的概率之比值与第一阈值的关系;
针对所述变异特征对应的每一位点,在泊松分布检验模型下,假设当测序深度一定时已知变异位点发生测序错误的读长条数为λ,假设带有已知变异特征的读长是由测序错误导致的且读长条数为n,判断n服从参数为λ的泊松分布累计概率值与第二阈值的关系;
若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值,且所述泊松分布累计概率值大于所述第二阈值,判断该位点为强阳性变异;若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值且所述泊松分布累计概率值小于等于所述第二阈值,或所述模型的概率与模型M0的概率之比值小于所述第一阈值且所述泊松分布累计概率值大于所述第二阈值,判断该位点为弱阳性变异;若所述模型的概率与模型M0的概率之比值小于所述第一阈值,且所述泊松分布累计概率值小于等于所述第二阈值,判断该位点为阴性无变异。
2.根据权利要求1所述的方法,其特征在于,所述模型的概率与模型M0的概率之比值为LOD(m,f),其满足如下公式(1):
其中,L(M0)和分别表示模型M0和模型的概率;
对于任一位点,假设参考基因组对应的碱基为r∈{A,T,C,G};假设覆盖该位点的所有读长的对应碱基为bi,碱基质量值为qi,对应的碱基错误率为d表示该位点对应的测序深度;
L(M0)和分别满足如下公式(2)~(3)和(4)~(5):
其中,
其中,
3.根据权利要求2所述的方法,其特征在于,所述第一阈值为2。
4.根据权利要求1所述的方法,其特征在于,假设当测序深度一定时已知变异位点发生测序错误的读长条数为λ,服从泊松分布,其对应的概率分布列为如下公式:
其中,k代表测序深度;
所述泊松分布累计概率值为
5.根据权利要求4所述的方法,其特征在于,所述第二阈值为0.95。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述变异包括单核苷酸变异和/或插入删除变异。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述测序读长碱基序列是人基因序列,所述参考基因组序列是人类基因组hg19序列。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:对测序下机数据进行预处理和质控以得到所述测序读长碱基序列。
9.根据权利要求8所述的方法,其特征在于,所述预处理包括:与参考基因组比对,排序,去重,建索引。
10.一种基于贝叶斯与泊松分布检验的已知变异检出装置,其特征在于,所述装置包括:
数据输入单元,用于提供测序读长碱基序列、参考基因组序列和假设已知变异位点存在时推算出的测序读长序列;
比对检测单元,用于将所述假设已知变异位点存在时推算出的测序读长序列与所述测序读长碱基序列进行比对检测,找到每一位点变异发生时的变异特征并找到能覆盖到该位点的所有测序读长碱基序列;
模型存储单元,用于存储贝叶斯检验模型和泊松分布检验模型,其中,针对所述变异特征对应的每一位点,在贝叶斯检验模型下,假设模型M0代表该位点不存在变异,与所述参考基因组序列不同的碱基是系统误差,假设模型代表该位点由所述参考基因组碱基r变异为m真实存在,并且等位基因突变频率为f,对于既不为r也不为m的碱基当作系统误差;针对所述变异特征对应的每一位点,在泊松分布检验模型下,假设当测序深度一定时已知变异位点发生测序错误的读长条数为λ,假设带有已知变异特征的读长是由测序错误导致的且读长条数为n;
变异判断单元,用于判断所述模型的概率与模型M0的概率之比值与第一阈值的关系,判断n服从参数为λ的泊松分布累计概率值与第二阈值的关系;若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值,且所述泊松分布累计概率值大于所述第二阈值,判断该位点为强阳性变异;若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值且所述泊松分布累计概率值小于等于所述第二阈值,或所述模型的概率与模型M0的概率之比值小于所述第一阈值且所述泊松分布累计概率值大于所述第二阈值,判断该位点为弱阳性变异;若所述模型的概率与模型M0的概率之比值小于所述第一阈值,且所述泊松分布累计概率值小于等于所述第二阈值,判断该位点为阴性无变异;
数据输出单元,用于输出所述变异判断单元所判断的变异数据结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华大基因医学检验所有限公司;广州华大基因科技有限公司,未经广州华大基因医学检验所有限公司;广州华大基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610407552.3/1.html,转载请声明来源钻瓜专利网。