[发明专利]一种基于图匹配的跨物种生物通路发现方法有效
申请号: | 201711093138.0 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107832583B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 祝园园;李阅志 | 申请(专利权)人: | 武汉大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B20/00;G16B50/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匹配 物种 生物 通路 发现 方法 | ||
1.一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:
步骤1:构建初始匹配M;
首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点集合A,然后从这些锚点集合A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;
步骤1的具体实现包括以下子步骤;
步骤1.1:采用谱方法计算全局相似性Sg;
对于图G,它的邻接矩阵为GA,对角度矩阵为D,拉普拉斯矩阵L=D-GA;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性
步骤1.2:计算局部相似性Sl;
假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和
步骤1.3:计算度相似性Sd和序列相似性Sseq;
假设G1的节点u的度为d(u),G2的节点v的度为d(v),那么u和v之间的度相似性为
通过BLAST计算出序列分数seq(u,v),然后进行归一化得到序列相似性
步骤1.4:融合各种相似性,选择出锚点集合A;
首先由全局相似性Sg、局部相似性Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节;再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和序列相似性的平衡参数,值在[0,1]之间可调节;
然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;
条件1:
条件2:S(u,v)≥τ,其中τ是阈值;
步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;
首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-β)×Sl(u,v)+β×Sseq(u,v)大小降序排列,其中β表示平衡Sl(u,v)和Sseq(u,v)的平衡参数;然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至优先队列Q为空,得到初始匹配M;
步骤2:优化匹配M得到最优匹配M*;
首先从蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果;
步骤3:利用匹配M*发现生物通道;
首先在KEGG PATHWAY数据库中找到两个物种的蛋白质交互网络中所有蛋白质节点涉及的生物通路集合;
然后利用匹配M*的节点映射关系找到具有最大公共子结构的生物通道。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711093138.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:状态预测方法和装置
- 下一篇:一种RNAseq数据分析方法