[发明专利]基于二维统计模型的体细胞拷贝数变异显著性检测方法有效
申请号: | 201410010002.9 | 申请日: | 2014-01-09 |
公开(公告)号: | CN103778350A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 袁细国;张军英;杨利英;张胜利 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 二维 统计 模型 体细胞 拷贝 变异 显著 检测 方法 | ||
技术领域
本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法。
背景技术
体细胞拷贝数变异(somatic copy number alteration,SCNA)是癌症基因组中的重要现象。它主要表现为拷贝数的扩增和缺失两种状态,与癌细胞的发生、发展有密切联系。因此,对SCNA进行系统的分析为从分子水平上研究癌症的致病机理提供了重要途径,其最底层、最核心的问题是如何区分具有癌症功能的SCNA模式与随机发生的SCNA。
众多研究表明,SCNA功能模式往往隐含于癌症基因组样本的一致变异区域中,那么建立以统计理论为基础的计算方法,检测SCNA在多个样本中重复发生的(Recurrent)显著性水平,为鉴定SCNA功能模式及发现潜在癌症基因提供直接的、可行的技术手段,进而为生物医学家对癌症的预测和诊断提供重要信息。因此,建立合理而有效的统计检验模型至关重要。
高通量全基因组SCNA位点的密集性及其结构的复杂性,给统计检验模型的建立及SCNA显著性的检测带来了极大的挑战,主要体现在以下两个方面。第一,问题本身的难点:a)位点数目高达180多万而样本数往往较少,形成了一种高纬度小样本的数据格局;b)SCNA位点之间存在较强的关联性,并非独立,使得检测因子之间存在交互影响;c)拷贝数扩增或缺失状态包括两方面的特征,即变异频率和变异幅度,这要求一个合理的权衡这两个特征的机制;d)SCNA结构模式的长度不尽相同,这要求考虑不同长度的SCNA具有不同的背景分布。第二,解决问题的理论和方法的挑战性:a)数据规模大,对计算时间和空间复杂度的有效控制是一个挑战问题;b)如何充分考虑SCNA位点间的关联性、降低SCNA显著性水平估计的保守性,是一个难点问题;c)如何建立与统计量具有一致性的零假设分布,增强显著性水平估计的统计意义,是一个重点且目前尚未突破的问题。
发明内容
为了解决上述问题,本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
在上述技术方案的基础上,所述步骤S1包括:
对SCNA信号进行处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。
在上述技术方案的基础上,所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
在上述技术方案的基础上,步骤S3包括
利用已知的SCNA功能模式构造训练集,学习频率w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值。
在上述技术方案的基础上,所述步骤S3还包括:
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df;
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410010002.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用