[发明专利]一种用数字标识生物序列和推断物种亲缘关系的方法有效
申请号: | 201310557139.1 | 申请日: | 2013-11-12 |
公开(公告)号: | CN103559427B | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 高扬;罗辽复 | 申请(专利权)人: | 高扬;罗辽复 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 包头市专利事务所15101 | 代理人: | 安平 |
地址: | 014030 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于生物体核苷酸序列碱基关联特征的生物序列识别码,进而提出了一整套该识别码在标志生物序列并进行物种亲缘关系分析的实施办法和效果评价体系。物种亲缘关系分析,是对识别码有效性的严格检验。本发明推演哺乳动物进化树和细小病毒亲缘关系得到的结果符合生物学家的分类知识,表明该方法切实有效、识别码解析度高。本发明提供的生物序列识别码具有识别能力强、数据量小等突出特点,可以实现少数数字标志庞大的基因组序列并简化生物序列的标志和分析比较应用,极具实用价值。 | ||
搜索关键词: | 一种 数字 标识 生物 序列 推断 物种 亲缘 关系 方法 | ||
【主权项】:
一种用数字标识生物序列和推断物种亲缘关系的方法,所述用数字标识生物序列和推断物种亲缘关系的方法具体包括:I信息关联和偏信息关联以给定DNA序列为例,构成序列的元素是碱基A、G、C、T,根据统计学方法:碱基i出现的概率为pi,其中i=A、G、C、T;碱基j出现的概率为pj,其中j=A、G、C、T;相距k的碱基对i(k)j出现的联合概率记为pi(k)j,再根据信息学理论可以得出整条序列的碱基关联信息量:Dk+2=-2Σipilog2pi+Σijpi(k)jlog2pi(k)j(k=0,1,2...)---(1)]]>称Dk+2为信息关联;计算pi(k)j时,为了避免有限长度N产生的边缘效应,可以引进周期性边界条件,即将序列前面的k+1个碱基接在序列的尾部,形成长为N+k+1的序列,然后将相距k的碱基对i(k)j出现的次数记为Ni(k)j,求出联合概率pi(k)j,其中加之泰勒展开式,公式(1)可以写成Dk+2=-2Σipilog2pi+ΣijNi(k)jNlog2Ni(k)jN=12ln2Σijpipj(xi(k)j2-13xi(k)j3+16xi(k)j4-...)]]>此时xi(k)j=(Ni(k)j‑Npipj)/Npipj;当N大时,信息关联可以写成Dk+2≅1ln2Σij(pi(k)j-pipj)2pipj]]>求和跨越16种碱基关联,为描述特定碱基关联,引入偏信息关联(PIC)Fi(k)j=(pi(k)j‑pipj)2 (2)II生物序列识别码生物序列识别码可以表示成矩阵、向量:FA(k0)AFA(k0)T...FG(k0)GDk0+2FA(k0+1)AFA(k0+1)T...FG(k0+1)GDk0+3...............FA(k0+d-1)AFA(k0+d-1)T...FG(k0+d-1)GDk0+d+1......(3)]]>FA(k0)A/Dk0+2FA(k0)T/Dk0+2...FG(k0)G/Dk0+2Dk0+2FA(k0+1)A/Dk0+3FA(k0+1)T/Dk0+3...FG(k0+1)G/Dk0+3Dk0+3...............FA(k0+d-1)A/Dk0+d+1FA(k0+d-1)T/Dk0+d+1...FG(k0+d-1)G/Dk0+d+1Dk0+d+1......(4)]]>[FA(k0)A,FA(k0)T,…,FG(k0)G,Dk0+2,FA(k0+1)A,…,FG(k0+1)G,Dk0+3,…Dk0+d+1]……(5)[FA(k0)A/Dk0+2,…,FG(k0)G/Dk0+2,Dk0+2,FA(k0+1)A/Dk0+3,…,Dk0+3,…Dk0+d+1]……(6)无论以何种形式表示,生物序列识别码的核心元素都是信息关联和16种偏信息关联数据,且参数k0=0,参数d的范围可以根据需要确定,共有d×17个数据;将生物序列识别码以矩阵形式表示或表述;III重构生物序列亲缘关系构建物种进化树,步骤如下:(1)筛选信息关联构建形如[Dk0+2,Dk0+3,…,Dk0+d+1]或[Fα(k0)β,Fα(k0+1)β,…,Fα(k0+d‑1)β]的矢量X,其中α,β∈{A,G,C,T};对矢量X的元素做方差分析(ANOVA)和多重比较检验(MCT);在多重比较时,对于给定物种对,只要矢量X的任意元素通过多重比较检验,就认为该矢量X可以成功区分此物种对;将不可识别的物种对数占总物种对数的比例归一化到100后称为矢量X的失败得分,记为WX(k0,d);失败得分低的矢量X对应的信息参数物种特异性强;(2)评价亲缘关系进化距离D需要满足以下三个公理:(i)Dx,y≥0;当且仅当x=y时Dx,y=0;(ii)Dx,y=Dy,x;(iii)对于任意物种x,y和z,Dx,z≤Dx,y+Dy,z恒成立;可以用马氏距离、欧式距离算法计算碱基关联矩阵之间的距离,并以此作为物种序列进化距离;以欧氏距离公式Dx,y=Σj=1fΣi=1d(Mx(i,j)-My(i,j))2---(7)]]>其中M代表碱基关联矩阵,f代表矩阵的列向量;d代表构成列向量的元素;当两两物种之间的距离都被确定之后,就得到了距离矩阵,进而用于绘制进化树;计算进化距离时使用偏信息关联与信息关联的比值,因为由公式(1)和(2)知,信息关联与偏信息关联的数量级分别为~10‑3和~10‑6,以偏信息关联和信息关联的比值作为参数,可使各个列向量数量级相当;(3)进化树的统计检验进化树可使用通用的邻接法(Neighbor‑Joining,简称NJ)和算术平均不加权组队法(Unweighted Pair‑Group Method withArithmetic,简称UPGMA)来构造系统发生树;对于检验所生成的进化树的鲁棒性(Robustness),提出一种相当于反向解靴带法或Jack‑knife检验的新方法进行检验:建立Z行的碱基关联矩阵,令d为从0到Z‑1的可变参数;给定一个d值,可以得到一颗树;通过将生成的树与物种分类信息比较确定最佳d值范围;最后将最佳d值范围内的树整合成一致树,即最终的系统发生树;由此得到的系统发生树的每一分支都会有一个统计值,称为Bootstrap值;d值范围越大说明所得系统发生树越稳定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高扬;罗辽复,未经高扬;罗辽复许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310557139.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用