[发明专利]一种基于新一代测序的拷贝数变异检测方法有效
申请号: | 201610114354.8 | 申请日: | 2016-03-01 |
公开(公告)号: | CN105760712B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 李垚垚;袁细国;张军英;杨利英;白俊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B30/00 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于新一代测序的拷贝数变异检测方法,该方法包括拷贝数变异数据的预处理、滑动窗口的构造、统计量的计算、置换策略的实施与零分布的构造、算法的性能评估,算法的性能评估采用判断算法能否在错误肯定率可控的情况下,获得较高的正确肯定率,评价算法是否能够较准确地估计p值,拷贝数变异的边界检出能力;分析算法的计算复杂度。本发明解决了由于测序平台及测序水平不同引起的拷贝数变异检测误差问题,令结果更准确;利用从多峰频率直方图特点归一化数据,以准确划分正常区域和拷贝数变异区域;本发明变异reads数与变异位点间关联性的综合作用,建立新模型,解决不一致性问题,客观估计拷贝数变异的显著性水平。 | ||
搜索关键词: | 一种 基于 新一代 拷贝 变异 检测 方法 | ||
【主权项】:
1.一种基于新一代测序的拷贝数变异检测方法,其特征在于,该基于新一代测序的拷贝数变异检测方法包括以下步骤:拷贝数变异数据的预处理:过滤掉CNV信号的Batch效应及比对过程中比对质量低的reads;通过标准化GC含量,调整数据样本位点对应的reads数;对多个样本的测序水平归一化处理成对应同一测序水平的数据;对于覆盖深度低的数据样本,直接将数据归一化成同一水平;对于覆盖深度高的数据样本,根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态;滑动窗口的构造:综合标准化处理后的多个样本,得一个高维矩阵;拟构造滑动窗口从起始位置计算位点的频数同时利用Pearson公式计算每个窗口内位点间的相关性,逐渐滑动窗口,直至遍及每个位点;计算位点间的相关性;统计量的计算:计算每个滑动窗口的统计量反映拷贝数变异的扩增或缺失状态,利用已知的拷贝数变异功能模式构造训练集,学习频数的权重w1和相关系数的权重w2,以计算统计量,Stest=w1*f+w2*a其中,f,a,Stest分别指训练集中拷贝数变异功能模式的频数,相关性,及统计量的值;置换策略的实施与零分布的构造:对标准化后的多个样本计算全基因组上各个位点对应的检测统计量,构造零分布T,然后对样本数据实施随机置换,对每一样本,随机置换其在全基因组中出现的位置,直至s个样本均被置换,构成一个全置换样本集;对每个置换样本集,计算随机拷贝数变异发生的统计量;最后计算检测统计量的显著性水平:
p‑value表示样本各位点对应的p‑value值,K为随机置换的次数T为零分布时的统计量,Ti*为第i次的统计量,若Ti*大于T,则计数加一,最后即得p值;其中p‑value,Ti*,T均为向量;基于CNV显著性水平的估计:由得到的样本所有位点对应的p值评价CNV发生的区域,若p值小于某设定的阈值0.05,则我们认为该CNV具有生物意义;对每个CNV结构单元,分别建立扩增和缺失状态的零分布,以分别检测扩增和缺失状态的显著性水平;算法的性能评估:判断算法能否在错误肯定率可控的情况下,获得正确肯定率;评价算法是否能够估计p值;拷贝数变异的边界检出能力;分析算法的计算复杂度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610114354.8/,转载请声明来源钻瓜专利网。