[发明专利]基于基因拷贝数变异位点对林木群体基因型分型的方法有效
申请号: | 201611175387.X | 申请日: | 2016-12-19 |
公开(公告)号: | CN106480221B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 张德强;杨海娇;杜庆章 | 申请(专利权)人: | 北京林业大学 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王加贵 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供的基于基因拷贝数变异位点对林木群体基因型的分型方法,与物种已公布的参考基因组序列相比,将不同个体上测序得到的大量reads映射到预先分割的参考基因组上比对;由匹配到窗口中的reads数目作为读取深度信号;根据窗口内的GC含量和偏差,基于不同个体在窗口内的读取深度信号值的数据集的中值,对窗口的读深信号值进行数据标准化处理;利用校正后的读深信号值预测不同个体在窗口中发生变异的拷贝数,根据读取深度信号值对每个CNV位点的基因型进行分型。本发明方法适用于不同群体大小的林木,利用高通量测序结果的读取深度信号确定CNV位点的基因型,算法简单,操作简便易行,较精确地发现和检测CNV位点的基因型。 | ||
搜索关键词: | 基于 基因 拷贝 变异 林木 群体 基因型 方法 | ||
【主权项】:
1.基于基因拷贝数变异位点对林木群体基因型的分型方法,其特征在于,包括以下步骤:1)将林木物种中已经公布的基因组序列作为参考序列,操作界面的每个窗口上显示连续的、非重叠的、大小相等区域,每个窗口能在空间上左右调整;所述窗口的大小固定,所述窗口的大小为500bp;2)将所述林木物种的不同个体测序,将所述测序得到的reads比对到所述步骤1)的参考序列上,将每个窗口内比对到的reads数目作为读取深度信号;3)根据每个窗口内reads的GC含量和偏差,空间上左右调整得到所述窗口的读取深度信号值,根据调整后的读取深度信号值得到不同个体在每个窗口内的读取深度信号值形成的数据集,再根据所述数据集计算得到中值;所述调整得到所述窗口的读取深度信号值的具体方法是:调整读取深度信号值使GC含量达到48~52%和偏差小于5%;4)根据步骤3)得到的中值对所述步骤2)得到的读取深度信号值进行数据标准化处理,得到校正后的读取深度信号值;所述数据标准化处理按照式I计算;所述式I为x′=xi‑Me/Std(x),其中x′为得到的新数据,xi为原始数据,Me为该列数据集中的中值,Std(x)为标准差;5)根据步骤4)得到的校正后的读取深度信号值计算不同个体在所述窗口中拷贝数,以拷贝数为2的拷贝数设为正常拷贝,所述正常拷贝的基因型为(1;1);所述计算不同个体在窗口中拷贝数的方法为:以正常拷贝数2个拷贝为中心,将标准化后的读取深度信号值经过四舍五入后,取最接近的整数作为该个体在该窗口中的拷贝数;6)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与正常拷贝的窗口相比有显著地增高时,属于基因拷贝数发生重复的结构变异;对重复拷贝数CN为3或4的基因位点进行分型,所述分型的方法具体为:将标准化校正后读取深度信号值的1.25<读取深度信号值<1.75范围内的基因拷贝数变异位点设为杂合重复,杂合重复的基因型为(1;2);将标准化校正后的1.75<读取深度信号值<2.25的基因拷贝数变异位点设为纯合重复,纯合重复的基因型为(2;2);7)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与无拷贝数变异的窗口相比有显著地降低时,属于基因拷贝数发生缺失的结构变异;对所述缺失的结构变异进行分型,所述分型的方法具体为:将标准化校正后的读取深度信号值<0.10的基因拷贝数变异位点设为纯合缺失,设定纯合缺失的基因型为(0;0);将标准化校正后的读取深度信号值为0.10<读取深度信号值<0.75的位点设为杂合缺失,设定杂合缺失的基因型为(0;1);所述步骤6)和7)没有时间顺序的限定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611175387.X/,转载请声明来源钻瓜专利网。