[发明专利]一种直接从全基因组重测序数据中得到微单体型及其分型的方法有效
申请号: | 201811248346.8 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109346130B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 夏晓勤;夏雷;石米娟;段攸;张婉婷;程莹寅;吴南 | 申请(专利权)人: | 中国科学院水生生物研究所 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 武汉宇晨专利事务所(普通合伙) 42001 | 代理人: | 江丽丽;王敏锋 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 直接 基因组 序数 得到 体型 及其 方法 | ||
本发明公开了一种直接从全基因组重测序数据中获取微单体型及其分型的方法,包括以下步骤:获取待测个体的全部SNP位点信息,根据测序深度筛选SNP位点,获得全基因组范围的微单体型及其信息,针对待测个体上有两种及以上分型情况的二倍体类SNP,依据该SNP位点的分型情况的二项分布概率计算其属于测序误差的概率P,由此剔除潜在的重复序列,组装过程中若两个SNP之间有超过两种的连接方式,则同样依据上述方法计算是否为测序误差导致,最后根据信息熵从高到低的顺序依次对微单体型排列,即得到信息含量较高的微单体型标记。本方法可以直接从个体测序结果中获得单体型的情况,解决了非模式生物因测序误差及组装造成的影响,结果可靠。
技术领域
本发明属于生物信息学技术领域,具体涉及一种直接从全基因组重测序数据中得到微单体型及其分型的方法。
背景技术
21世纪以前,分子标记主要是RAPD(Random Amplification of PolymorphicDNA)、AFLP(Amplified Fragment Length Polymorphism)、RFLP(Restriction FragmentLength Polymorphism)以及SSCP(Single Strand Conformation Po1ymorphism)。然而,上述四种标记已经不再广泛使用,现有的常用分子标记包括SSR(即Short Tandem Repeats,STR)以及SNP(Single Nucleotide Polymorphism)。由于SSR标记在实验过程会出现读条带不准确、筛选标记时人力物力耗费巨大等缺点,越来越多的群体分析,如群体结构分析及亲子鉴定等,选择使用SNP位点。SNP作为分子标记也有其缺点,如单个SNP位点的多态性不够高,要想达到与SSR标记同等效力,SNP标记的数量要比SSR标记多得多。现有寻找SNP标记的软件及算法主要是Stacks软件,然而它主要应用于寻找RAD-seq(Restriction siteAssociated DNA Sequencing)中的tagSNP,而RAD-seq技术比较依赖于限制酶酶切位点的数量,因此不一定能够得到全基因组上的tagSNP。
单体型(haplotype)作为连锁遗传的SNP组合,21世纪以来得到了较为迅速的发展。大量与人类疾病有关的单体型被鉴定出来,并且这也推动了GWAS(Genome-wideAssociation Study)技术的发展。现有的分析单体型的软件主要包括PHASE、HAPLOVIEW、WHATSHAP、IMPUTE2等。PHASE依据个体在每个SNP位点上的分型情况进行单体型的检测与分型,而不是直接从测序获得的短序列中获取,组装好的非模式生物基因组上的重复序列可能会对单体型的分析起到影响;HAPLOVIEW先从测序数据中分析重组率以获得SNP组合(SNPblock),随后使用PL-EM算法(Partition-Ligation-Expectation-MaximizationAlgorithm)预测单体型,然而此方法获得的单体型是参数优化的结果;WHATSHAP使用动态规划算法(Dynamic Programming Algorithm)解决了直接从短序列获取单体型的过程中会出现的最小误差校正问题(Minimum Error Correction Problem,MEC),然而这个算法比较适合长序列,且对测序深度有要求(不大于20X);IMPUTE2、MACH、fastPHASE等软件则是依据HMM模型,使用已确定的单体型获取未知的单体型。上述与单体型获取有关的软件,除WHATSHAP,都与EM算法(Expectation-Maximization Algorithm)有关,此算法主要是对参数进行优化,以获取最确定的单体型分型结果,因此大部分与单体型分析有关的软件获得的结果都是优化的结果,而不是直接从测序结果中获取的确定的单体型结果,因此其结果可能还需要实验进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院水生生物研究所,未经中国科学院水生生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811248346.8/2.html,转载请声明来源钻瓜专利网。