[发明专利]基因变异检测方法及装置有效
申请号: | 201611110748.2 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106611106B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 何光铸;王东辉;蔡文君;颜芹 | 申请(专利权)人: | 北京荣之联科技股份有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎;李弘 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 变异 检测 方法 装置 | ||
1.一种基因变异检测方法,其特征在于,包括:
从基因比对结果中统计每个位点的比对信息;
考虑碱基变异和插入缺失变异,创建16基因型模型,具体包括:样品是一个二倍体生物样品,碱基类型有ATCG四种,则二倍体基因型的统计类型有{AA,AC,AG,AT,CC,CG,CT,GG,GT,TT,AX,CX,GX,TX,XX,XY},其中X和Y分别代表有最多比对reads支持和第二多reads支持的插入或缺失;
使用所述16基因型模型搜索候选变异位点;
使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果,具体包括:定义真实变异位点和伪变异位点;建立随机森林模型;经过随机森林模型从所述候选变异位点中筛选得到更加可信的候选变异位点;将所述更加可信的候选变异位点以VCF格式输出,并且直接应用于下游的分析工具。
2.根据权利要求1所述的方法,其特征在于,所述从基因比对结果中统计每个位点的比对信息,具体包括以下比对信息:
碱基类型和对应的每个碱基类型的比对质量值、等位基因型及其reads支持数量、正负链数量、插入缺失数量及插入序列信息,和/或,软剪切位点数量。
3.根据权利要求1所述的方法,其特征在于,所述使用所述16基因型模型搜索候选变异位点,具体包括:
通过贝叶斯模型计算出每个位点最大可能的基因型;
将所述最大可能的基因型与参考基因组的对应位点的参考信息进行比较,得到所述候选变异位点。
4.一种基因变异检测装置,其特征在于,包括:
统计模块,用于从基因比对结果中统计每个位点的比对信息;
模型创建模块,用于考虑碱基变异和插入缺失变异,创建16基因型模型;具体用于:样品是一个二倍体生物样品,碱基类型有ATCG四种,则二倍体基因型的统计类型有{AA,AC,AG,AT,CC,CG,CT,GG,GT,TT,AX,CX,GX,TX,XX,XY},其中X和Y分别代表有最多比对reads支持和第二多reads支持的插入或缺失;
搜索模块,用于使用所述16基因型模型搜索候选变异位点;
分类与筛选模块,用于使用随机森林对候选变异位点进行分类与筛选,并输出筛选后的候选变异结果;具体用于:定义真实变异位点和伪变异位点;建立随机森林模型;经过随机森林模型从所述候选变异位点中筛选得到更加可信的候选变异位点;将所述更加可信的候选变异位点以VCF格式输出,并且直接应用于下游的分析工具。
5.根据权利要求4所述的装置,其特征在于,所述从基因比对结果中统计每个位点的比对信息,具体包括以下比对信息:
碱基类型和对应的每个碱基类型的比对质量值、等位基因型及其reads支持数量、正负链数量、插入缺失数量及插入序列信息,和/或,软剪切位点数量。
6.根据权利要求4所述的装置,其特征在于,所述搜索模块,具体用于:
通过贝叶斯模型计算出每个位点最大可能的基因型;
将所述最大可能的基因型与参考基因组的对应位点的参考信息进行比较,得到所述候选变异位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京荣之联科技股份有限公司,未经北京荣之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110748.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:实现菜谱推荐的方法及装置
- 下一篇:一种光盘版权保护方法