[发明专利]一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法有效
申请号: | 201310611263.1 | 申请日: | 2013-11-26 |
公开(公告)号: | CN103593659A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 邓继忠;甘四明;黄华盛;李梅;于晓丽;袁之报;金济 | 申请(专利权)人: | 华南农业大学;中国林业科学研究院热带林业研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06N3/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松 |
地址: | 510642 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 二倍体 pcr 产物 sanger 测序中个 体内 snp 识别 方法 | ||
技术领域
本发明属于计算机自动识别领域,涉及到生物信息学、模式识别、统计学、信号处理及计算机软件技术,特别涉及到没有参考序列和只有少数样本的情况下、一种针对二倍体聚合酶链式反应(Polymerase chain reaction,PCR)产物的Sanger测序中个体内单核苷酸多态性(Single nucleotide polymorphism,SNP)的识别方法。
背景技术
SNP是指遗传物质DNA水平上单个核苷酸的替换所引起的变异(或称多态性),SNP具有广泛性、代表性、遗传性、稳定性等特点,反映了丰富的遗传信息,是最常见的可遗传变异,SNP也成为广泛使用的遗传标记。SNP可能导致个体表型的不同,例如,SNP位点可能是人类基因组中疾病易感基因相关的遗传标记,甚至直接影响癌症、心脏病、糖尿病以及其他常见疾病的易感性。因此,SNP检测在基因组序列多态性和重要表型的遗传标记研究中有着十分重要的作用。
虽然,新一代测序技术已用于生命科学多个研究领域,但基于传统Sanger测序技术的PCR产物测序仍应用广泛。通常,PCR产物直接测序中,二倍体个体内SNP在测序峰图上表现为双峰,而测序仪配套软件只能识别最高峰(碱基)、不能自动识别较低的峰(碱基),因而不能判读个体内SNP。目前,已经有人开发了一些软件来自动检测这类双峰或者个体内SNP,如novoSNP(Weckx et al.,2005.novoSNP,a novel computational tool for sequence variation discovery.Genome Res.15:436-442)、Mutation Surveyor(http://www.softgenetics.com/MutationSurveyor.html)、PolyPhred5.0(Stephen et al.,2006.Automating sequence-based detection and genotyping of SNPs from diploid samples.Nat.Genet.38:375-381)。但是,这些软件均不能分析单个的测序文件,如novoSNP和Mutation Surveyor需要参考序列,这在参考基因序列进行测序、而测出序列有内含子(不在基因序列中)时就不可行;PolyPhred5.0需要8个以上测序文件的对比才能准确判读SNP,不适于单个或者少量样本的测序。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,能够有效检测测序文件的个体内SNP位点。
为实现上述目的,本发明所提供的技术方案为:一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,包括以下步骤:
1)从二倍体PCR产物Sanger测序的色谱图形中分离腺瞟呤A、鸟瞟呤G、胞嘧啶C和胸腺嘧啶T四种碱基的荧光数据;
2)对提取的荧光数据进行滤波去噪处理;
3)分析步骤1)四种碱基荧光数据的波形特征,确定波形的周期,检测波形的第一峰与第二峰,选择波峰距离、高度比值和起伏度比值这三个波形特征,作为SNP位点判别的要素;
4)选择BP神经网络作为SNP位点检测的分类器,所述BP神经网络的结构为3-10-1,输入层的节点数是3,中间层∕隐含层节点数是10,输出层的节点数是1,并采用Levenberg Marquardt算法来对BP神经网络进行训练;
5)神经网络分类器的输出是介于0~45的一个数值,采用分段线性变换将输出映射为0~100的SNP评价分数,评价分数越高,则该位点属于SNP的可能性越大;
6)根据SNP评价分数,对SNP位点进行类别分级,分为1~5级,并据此判定该位点的SNP置信度。
在步骤1)中,原始数据为Applied Biosystems公司的系列测序仪产生的、扩展名为.ab1的测序色谱图形文件,也可以是Beckman Coulter公司的测序仪产生的、扩展名为.scf的测序色谱图形文件,根据相应文件格式的说明,通过偏移量计算,将A、G、T和C四种碱基的荧光数据单独分离出来。
在步骤2)中,所述滤波去噪处理是采用小波多尺度分析方法,对四种碱基序列数据单独处理,选择Daubechies小波的一阶函数db1作为小波基函数,用分解3层后的低频分解系数重构小波,重构的四种碱基的数据是后续进行SNP检测的分析数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学;中国林业科学研究院热带林业研究所,未经华南农业大学;中国林业科学研究院热带林业研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310611263.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种QR码畸变图像的预处理方法
- 下一篇:无线胶囊内窥镜图像识别方法及系统