[发明专利]基因变异检测方法及装置有效
申请号: | 201611110748.2 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106611106B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 何光铸;王东辉;蔡文君;颜芹 | 申请(专利权)人: | 北京荣之联科技股份有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎;李弘 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 变异 检测 方法 装置 | ||
本发明公开了一种基因变异检测方法及装置,包括:从基因比对结果中统计每个位点的比对信息;考虑碱基变异和插入缺失变异,创建16基因型模型;使用所述16基因型模型搜索候选变异位点;使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果。本发明提供的基因变异检测方法及装置,能够同时检测单碱基变异和插入缺失变异,效率较高。
技术领域
本发明涉及数据处理技术领域,特别是指一种基因变异检测方法及装置。
背景技术
基因组变异检测,这里指的是从二代测序数据的比对结果中,找出与参考基因组不同的碱基或序列片段,即单碱基变异(SNV)和插入缺失变异(INDEL)。
目前被广泛应用的10基因型模型只考虑了单碱基变异类型,插入缺失变异一般要单独检测,这使得现有模型的基因变异检测不够简便。
发明内容
有鉴于此,本发明的目的在于提出一种能够同时检测单碱基变异和插入缺失变异的基因变异检测方法及装置。
基于上述目的本发明提供的基因变异检测方法,包括:
从基因比对结果中统计每个位点的比对信息;
考虑碱基变异和插入缺失变异,创建16基因型模型;
使用所述16基因型模型搜索候选变异位点;
使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果。
在一些可选实施方式中,所述从基因比对结果中统计每个位点的比对信息,具体包括以下比对信息:
碱基类型和对应的每个碱基类型的比对质量值、等位基因型及其Reads支持数量、正负链数量、插入缺失数量及插入序列信息,和/或,软剪切位点数量。
在一些可选实施方式中,所述考虑碱基变异和插入缺失变异,创建16基因型模型,具体包括:
假设样品是一个二倍体生物样品,碱基类型有ATCG四种,则二倍体基因型的统计类型有{AA,AC,AG,AT,CC,CG,CT,GG,GT,TT,AX,CX,GX,TX,XX,XY},其中X和Y分别代表有最多比对reads支持和第二多reads支持的插入或缺失。
在一些可选实施方式中,所述使用所述16基因型模型搜索候选变异位点,具体包括:
通过贝叶斯模型计算出每个位点最大可能的基因型;
将所述最大可能的基因型与参考基因组的对应位点的参考信息进行比较,得到所述候选变异位点。
在一些可选实施方式中,所述使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果,具体包括:
定义真实变异位点和伪变异位点;
建立随机森林模型;
经过随机森林模型从所述候选变异位点中筛选得到更加可信的候选变异位点;
将所述更加可信的候选变异位点以VCF格式输出,并且直接应用于下游的分析工具。
本发明的另一方面,提供了一种基因变异检测装置,包括:
统计模块,用于从基因比对结果中统计每个位点的比对信息;
模型创建模块,用于考虑碱基变异和插入缺失变异,创建16基因型模型;
搜索模块,用于使用所述16基因型模型搜索候选变异位点;
分类与筛选模块,用于使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京荣之联科技股份有限公司,未经北京荣之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110748.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:实现菜谱推荐的方法及装置
- 下一篇:一种光盘版权保护方法