[发明专利]基于多条代谢路径比对重建物种系统发生树的方法有效
申请号: | 201710116712.3 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106909805B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 黄毅然;钟诚;林海翔 | 申请(专利权)人: | 广西大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 王素娥 |
地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于多条代谢路径比对重建物种系统发生树的方法。通过多条代谢路径之间的全局比对来建立多代谢路径的合图,然后通过合图的节点聚类建立各代谢路径的功能模块之间的映射,并通过功能模块的映射来进一步分析代谢路径间的关系并建立物种间的系统发生树。本发明的有益效果是:通过本方法的实施,简化了代谢路径的比对工作,研究人员只需要进行简单的操作就能够快速准确的生成物种间的系统发生树。 | ||
搜索关键词: | 基于 代谢 路径 重建 物种 系统 发生 方法 | ||
【主权项】:
1.基于多代谢路径比对重建物种系统发生树的方法,具体步骤如下:1)合图的建立:1.1)节点相似度的计算:对于代谢路径P,设Gp=(Vp,Ep)表示代谢路径P,其中Gp是一个有向图,Vp是Gp的顶点集,Ep是Gp的有向边集合,Gp中的顶点ui和uj表示P中的反应ri和rj,如果ri的一个输出化合物是rj的一个输入化合物,那么ui和uj之间存在一条从ri到rj的有向边,如果ri,rj都是可逆的,那么也存在一条从rj到ri的有向边;k是正整数,对于图Gp中的任意节点u,定义u的k邻居集合:Nk(u),Nk(u)是Vp的一个节点集合,其中u不属于Nk(u)并且对于任意x∈Nk(u)的节点,从u到x的最短距离是k;其中最短距离定义为从u到x的最短路径边数,对于图Gp’中的任意节点v,同理可以定义v的k邻居集合Nk(v);对于节点u∈Vp和节点v∈Vp′,在Gp里,u的k邻居子图表示为![]()
定义为Gp在Nk(u)∪{u}里的导出子图,在Gp’里,v的k邻居子图表示为![]()
定义为Gp’在Nk(v)∪{v}里的导出子图,设d(u)和d(v)分别是u,v在Gp和Gp’里的度;
是邻居集合Nk(u)里按非升序排列的u的k邻居的节点度序列;
是邻居集合Nk(v)里按非升序排列的v的k邻居的节点度序列,定义节点u,v的拓扑相似度T(u,v)为:
定义节点u与节点v间的生化相似度:Bsim(u,v)=α×ESim(ue,ve)+β×Csim(ui,vi)+γ×Csim(uo,vo),其中ue,ve分别是催化反应u,v的酶,ESim(ue,ve)是酶ue与酶ve之间的相似度,酶的相似度计算用酶EC号的相交的比例作为他们之间的相似度,Csim(ui,vi)是节点u和节点v的输入化合物的平均相似度,Csim(uo,vo)是节点u和节点v的输出化合物的平均相似度,α,β,γ是比例系数,用来调节各个变量在Bsim(u,v)中的比例,综合节点的拓扑相似度和节点生化相似度,可以得到节点u,v间的节点相似度S(u,v)为:S(u,v)=σ×T(u,v)+(1‑σ)×Bsim(u,v) (2)其中σ是比例系数,用来调节各个变量在S(u,v)中的比例;1.2)根据节点相似度寻找节点之间的映射:以Gp里的节点集作为带权二部图(Gb)的一个分割,以Gp′里的节点集作为二部图(Gb)的另一个分割,以Gp的节点与Gp′的节点间的同源相似度作为连接这两个分割的节点的边权重,用最大权重二部图匹配方法为Gp中的任意节点u在Gp′里找到它在Gp′里的唯一映射节点v,得到u到v的1对1映射(u,v),u∈V(Gp),v∈V(Gp′);1.3)两条代谢路径之间合图的建立:将步骤1.2)得到的u到v的1对1映射(u,v)定义为合并点Vm={(u,v)|u∈V(Gp),v∈V(Gp′)},并将这些合并点构成的图定义为合图GM;设Gp与Gp′的合图GM的顶点集是V(GM)={Vm1,Vm2,…,Vmi,…Vmn},i∈{1,2,…,n},n=max{|V(Gp)|,|V(Gp′)|},我们也将V(GM)称为Gp和Gp′的合并点集,合并点之间的同源相似度的计算:S(u,v)=α×Esim(ue,ve)+β×Csim(uic,vic)+γ×Csim(uoc,voc) (3)通过(3)式分别计算合图GM中任意两个合并点间的同源相似度,可以得到合图GM的合并点同源相似矩阵M,M是一个|V(Gp)|×|V(Gp′)|矩阵,M中每个元素M[Vmi,Vmj]∈[0,1]表示合并点Vmi∈V(GM)与合并点Vmj∈V(GM)的同源相似度;1.4)多条代谢路径之间合图以及对应合图的同源相似度矩阵的建立:设t个物种的公共代谢路径分别是G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et),这些代谢路径构成集合G={G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)};建立这些物种的公共代谢路径之间的合图的具体步骤如下:1.4.1)首先从G中选出节点数最多的代谢路径Gmax,|V(Gmax)|=n,然后用Gmax分别与G中每一个代谢路径Gi∈G建立一个合图GMi,合图GMi的顶点集是V(GMi)={Vm1i,Vm2i,…,Vmni},i∈{1,…,t},于是,每建立一个合图GMi都会得到一个合并点同源相似矩阵Mi;1.4.2)把步骤1.4.1)得到的合图合并在一起,得到这t个物种的公共代谢路径的合图GMK,其中合图GMK的顶点集是
合图GMK的合并点同源相似矩阵
2)保守功能模块的建立:把步骤1.4)得到的合图中的每个合并点作为一个数据点,把合并点同源相似度矩阵作为数据点之间的相似度矩阵,对合并点进行聚类,聚类结果就是合图中被划分为一类的合并点集合,我们把这种合并点集合称为UM,对每条代谢路径而言,在每次比对中经过划分聚类后,由代谢路径中所有属于同一个UM的节点组成的集合就是该代谢路径的一个保守功能模块;3)物种相似度的计算:设t个物种中的公共代谢路径分别表示为G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et);在步骤2)中,这t个代谢路径中找到的保守功能模块是M={M1,M2,…,Mr},其中节点规模最大的保守功能模块是Mmax,对于任意两个代谢路径Gi(Vi,Ei)和Gj(Vj,Ej),设它们的节点规模最大的保守功能模块分别为Mimax和Mjmax,其中Mimax和Mjmax的顶点集分别为Vimax和Vjmax,Mimax和Mjmax的边集分别为Eimax和Ejmax;设Mimax与Mjmax在Mimax中的LCCS为MiLCCS,MiLCCS的顶点集为ViLCCS,边集为EiLCCS,设Mimax与Mjmax在Mjmax中的LCCS为MjLCCS,MjLCCS的顶点集为VjLCCS,边集为EjLCCS;于是,代谢路径Gi(Vi,Ei)和Gj(Vj,Ej)之间的相似得分:
设t个物种分别为O1,O2,…,Ot,O1的p条公共代谢路径为G11,G12,…,G1p,O2的p条公共代谢路径为G21,G22,…,G2p,…,Ot的p条公共代谢路径为Gt1,Gt2,…,Gtp,于是,任意两个物种Oi和Oj间的相似度:
4)物种系统发生树的建立:具体步骤如下:4.1)用(5)式计算这t个物种中任意两个物种之间的相似度,得到一个t×t的相似度矩阵BSim;BSim是一个对角线元素为1的对称矩阵,BSim[i,j]∈[0,1]表示物种i与物种j之间的相似度;4.2)设这t个物种的距离矩阵为D,D[i,j]∈[0,1]表示物种i与物种j之间的距离,D[i,j]=1‑BSim[i,j];然后,用软件PHYLIP建立一个基于距离矩阵D的系统发生树;4.3)用软件TreeView显示系统发生树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710116712.3/,转载请声明来源钻瓜专利网。