[发明专利]一种直接从全基因组重测序数据中得到微单体型及其分型的方法有效
申请号: | 201811248346.8 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109346130B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 夏晓勤;夏雷;石米娟;段攸;张婉婷;程莹寅;吴南 | 申请(专利权)人: | 中国科学院水生生物研究所 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 武汉宇晨专利事务所(普通合伙) 42001 | 代理人: | 江丽丽;王敏锋 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种直接从全基因组重测序数据中获取微单体型及其分型的方法,包括以下步骤:获取待测个体的全部SNP位点信息,根据测序深度筛选SNP位点,获得全基因组范围的微单体型及其信息,针对待测个体上有两种及以上分型情况的二倍体类SNP,依据该SNP位点的分型情况的二项分布概率计算其属于测序误差的概率P,由此剔除潜在的重复序列,组装过程中若两个SNP之间有超过两种的连接方式,则同样依据上述方法计算是否为测序误差导致,最后根据信息熵从高到低的顺序依次对微单体型排列,即得到信息含量较高的微单体型标记。本方法可以直接从个体测序结果中获得单体型的情况,解决了非模式生物因测序误差及组装造成的影响,结果可靠。 | ||
搜索关键词: | 一种 直接 基因组 序数 得到 体型 及其 方法 | ||
【主权项】:
1.一种直接从全基因组重测序数据中获取微单体型及其分型的方法,包括以下步骤:S1)对待测个体进行全基因组重测序;S2)使用比对软件将测序结果与相同物种或近似物种的参考基因组进行比对;S3)使用检测SNP的软件进行SNP位点检测;S4)根据测序深度筛选SNP位点:分别统计待测个体的SNP位点测序深度,根据所得的测序深度作出箱型图,选取全部个体的集中区域的最小值作为测序深度的阈值,并筛选深度大于该阈值的SNP位点;统计各SNP位点在全部个体中的分型情况,若完全一致则舍弃该SNP位点;S5)获得全基因组范围内的微单体型:全基因组搜索两个SNP之间距离小于设定阈值的全部SNP组合,所述的阈值为0‑999bp;S6)获得各单体型的具体SNP位点信息:通过S5)获得的各SNP组合,筛选其中SNP数量大于等于2的SNP组合作为潜在的微单体型,并依据S3)中获得的SNP信息文件获得覆盖该微单体型片段的全部SNP相关信息,包括全部SNP具体位置、所在Scaffold的ID、该片段的SNP个数以及该片段长度;S7)按照下述方法进行微单体型的检测:S7.1)获得全部个体覆盖某标记的测序短序列信息;S7.2)根据待测个体在SNP位点上的碱基情况,将SNP位点分成一致与二倍体两类,一致类指该SNP在待测个体上只有一种分型情况,二倍体类指该SNP在待测个体上有两种及以上分型情况,筛选有两种及以上分型情况的SNP位点;并依据SNP位点的分型情况的二项分布概率计算其属于测序误差的概率P,计算公式如下:
其中n为覆盖该位点的短序列总数,m为上述短序列中某一分型的数量,概率p为测序误差概率,该值设为0.001‑0.02,若计算后概率P大于0.01则认为该分型是由测序误差导致,将该分型剔除并接受该SNP位点,以用于后续微单体型的组装,若计算概率后该位点依旧含有两种以上分型情况,则认为该位点所在微单体型片段是潜在的重复序列,为降低分析误差从而将该片段从全部微单体型中去除;S7.3)首先对二倍体类SNP位点的位置进行筛选,若两个SNP位点之间的距离大于设定的阈值,所述的阈值范围为50‑900bp,则将该片段在此处切断,分成两个子标记;若不存在上述情况,则继续依赖于该二倍体类SNP与其后二倍体类SNP的关系,若二者没有短序列覆盖,则无法进行组装,于是将该标记在此处打断,分成两个子标记,若打断后依旧出现相邻两个SNP位点依旧没有短序列覆盖,则在这两个SNP位点处打断,以此类推;若有短序列将二者覆盖,则统计各连接方式的短序列个数,若这两个SNP之间有超过两种的连接方式,则首先依据各组合方式的二项分布概率计算是否为测序误差导致,使用的参数与计算方法和公式(1)一致,若经计算依旧含有超过两种的连接方式,则认为该片段位于重复片段上,从而将该片段去除;若某一条链在某两个SNP位点上没有短序列覆盖,最终组装后只得到一条链,则另一条链依据之前的二倍体类SNP的结果,完成组装;S7.4)上述组装过程最终会得到两条确定的只含有二倍体类SNP组成的链,随后将一致类SNP与已组装好的两条链按照参考基因组上的顺序进行组合,即可得到待测个体在该标记上的二倍体分型情况;S7.5)采用上述方法获取全部个体的微单体型分型结果,并对每个微单体型在全部个体的分型情况进行信息含量的计算,计算方式为:
其中,n表示该SNP组合中等位基因的个数,pi表示第i个等位基因在群体中的基因频率,H表示该组合在群体中的信息熵;S7.6)按信息熵从高到低的顺序依次对微单体型排列,即可得到信息含量较高的微单体型标记。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院水生生物研究所,未经中国科学院水生生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811248346.8/,转载请声明来源钻瓜专利网。