[发明专利]一种用数字标识生物序列和推断物种亲缘关系的方法有效
申请号: | 201310557139.1 | 申请日: | 2013-11-12 |
公开(公告)号: | CN103559427B | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 高扬;罗辽复 | 申请(专利权)人: | 高扬;罗辽复 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 包头市专利事务所15101 | 代理人: | 安平 |
地址: | 014030 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字 标识 生物 序列 推断 物种 亲缘 关系 方法 | ||
1.一种用数字标识生物序列和推断物种亲缘关系的方法,所述用数字标识生物序列和推断物种亲缘关系的方法具体包括:
I信息关联和偏信息关联
以给定DNA序列为例,构成序列的元素是碱基A、G、C、T,根据统计学方法:碱基i出现的概率为pi,其中i=A、G、C、T;碱基j出现的概率为pj,其中j=A、G、C、T;相距k的碱基对i(k)j出现的联合概率记为pi(k)j,再根据信息学理论可以得出整条序列的碱基关联信息量:
称Dk+2为信息关联;
计算pi(k)j时,为了避免有限长度N产生的边缘效应,可以引进周期性边界条件,即将序列前面的k+1个碱基接在序列的尾部,形成长为N+k+1的序列,然后将相距k的碱基对i(k)j出现的次数记为Ni(k)j,求出联合概率pi(k)j,其中加之泰勒展开式,公式(1)可以写成
此时xi(k)j=(Ni(k)j-Npipj)/Npipj;当N大时,信息关联可以写成
求和跨越16种碱基关联,为描述特定碱基关联,引入偏信息关联(PIC)
Fi(k)j=(pi(k)j-pipj)2(2)
II生物序列识别码
生物序列识别码可以表示成矩阵、向量:
[FA(k0)A,FA(k0)T,…,FG(k0)G,Dk0+2,FA(k0+1)A,…,FG(k0+1)G,Dk0+3,…Dk0+d+1]……(5)
[FA(k0)A/Dk0+2,…,FG(k0)G/Dk0+2,Dk0+2,FA(k0+1)A/Dk0+3,…,Dk0+3,…Dk0+d+1]……(6)
无论以何种形式表示,生物序列识别码的核心元素都是信息关联和16种偏信息关联数据,且参数k0=0,参数d的范围可以根据需要确定,共有d×17个数据;将生物序列识别码以矩阵形式表示或表述;
III重构生物序列亲缘关系
构建物种进化树,步骤如下:
(1)筛选信息关联
构建形如[Dk0+2,Dk0+3,…,Dk0+d+1]或[Fα(k0)β,Fα(k0+1)β,…,Fα(k0+d-1)β]的矢量X,其中α,β∈{A,G,C,T};对矢量X的元素做方差分析(ANOVA)和多重比较检验(MCT);在多重比较时,对于给定物种对,只要矢量X的任意元素通过多重比较检验,就认为该矢量X可以成功区分此物种对;将不可识别的物种对数占总物种对数的比例归一化到100后称为矢量X的失败得分,记为WX(k0,d);失败得分低的矢量X对应的信息参数物种特异性强;
(2)评价亲缘关系
进化距离D需要满足以下三个公理:
(i)Dx,y≥0;当且仅当x=y时Dx,y=0;
(ii)Dx,y=Dy,x;
(iii)对于任意物种x,y和z,Dx,z≤Dx,y+Dy,z恒成立;
可以用马氏距离、欧式距离算法计算碱基关联矩阵之间的距离,并以此作为物种序列进化距离;以欧氏距离公式
其中M代表碱基关联矩阵,f代表矩阵的列向量;d代表构成列向量的元素;当两两物种之间的距离都被确定之后,就得到了距离矩阵,进而用于绘制进化树;
计算进化距离时使用偏信息关联与信息关联的比值,因为由公式(1)和(2)知,信息关联与偏信息关联的数量级分别为~10-3和~10-6,以偏信息关联和信息关联的比值作为参数,可使各个列向量数量级相当;
(3)进化树的统计检验
进化树可使用通用的邻接法(Neighbor-Joining,简称NJ)和算术平均不加权组队法(Unweighted Pair-Group Method withArithmetic,简称UPGMA)来构造系统发生树;对于检验所生成的进化树的鲁棒性(Robustness),提出一种相当于反向解靴带法或Jack-knife检验的新方法进行检验:建立Z行的碱基关联矩阵,令d为从0到Z-1的可变参数;给定一个d值,可以得到一颗树;通过将生成的树与物种分类信息比较确定最佳d值范围;最后将最佳d值范围内的树整合成一致树,即最终的系统发生树;由此得到的系统发生树的每一分支都会有一个统计值,称为Bootstrap值;d值范围越大说明所得系统发生树越稳定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高扬;罗辽复,未经高扬;罗辽复许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310557139.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用