[发明专利]一种基于图模型的蛋白质复合物识别方法在审

专利信息
申请号: 201611099607.5 申请日: 2016-12-02
公开(公告)号: CN106778063A 公开(公告)日: 2017-05-31
发明(设计)人: 林志杰 申请(专利权)人: 上海电机学院
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 上海申汇专利代理有限公司31001 代理人: 翁若莹,吴小丽
地址: 201100 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 蛋白质 复合物 识别 方法
【说明书】:

技术领域

发明涉及一种蛋白质复合物识别方法,尤其涉及一种基于H-index图模型的蛋白质复合物识别算法HPCMiner(H-index based Protein complex Miner),将图模型H-index看作蛋白质复合物的核,通过考察扩展该图模型的一阶邻居结点识别蛋白质复合物。

背景技术

在后基因时代,系统分析蛋白质互作网络拓扑结构,从蛋白质网络中识别蛋白质复合物,对预测蛋白质功能、解释特定的生物进程具有重要作用。同时,蛋白质复合物识别也为研究蛋白质互作网络提供了一种研究途径。蛋白质网络可以用图模型表达,其中结点是蛋白质,边代表蛋白质之间的相互作用。这样的图模型为理解复杂的生物系统提供了一个新的视角。

虽然可以对蛋白纸互作网络利用图模型的表达方法做研究,但是目前对蛋白质互作网络上的蛋白质复合物或蛋白质模块的识别,还停留在蛋白质复合物在图模型里呈现的是一个密集的蛋白质簇这样一个概念。目前对蛋白质复合物在相互作用网络中对应的子图模型还没有严格的数学表述和统一的定义。所以,很多研究者将蛋白质复合物识别问题转化为稠密子图的求解问题。

为了在蛋白质网络中发现这些重要且有生物意义的稠密子图,Sprin和Mimy(Spirin V and Mimy LA.Protein complexes and functional modules in molecular networks.Proc Natl Acad Sci USA,100(21):12123-12128,2003.)通过挖掘蛋白质中ds=1(dense subgraph,ds)的全连通图(极大团)来识别蛋白质复合物。然而,由于目前能够获得的蛋白质相互作用还不完全,仅通过挖掘全连通图来识别蛋白质复合物存在很大的局限性。最近,有很多蛋白质复合物识别方法,Bader和Hogue(Bader G.and Hogue C.An automated method for finding molecular complexes in large protein interaction networks.BMC Bioinformatics,4:2,1.)提出的MCODE(Molcular Complex Detection)算法,算法以蛋白质互作网络为输入,通过寻找稠密的蛋白质簇发现蛋白质复合物。MCODE算法可以大致分为三个阶段:第一阶段利用基于网络密度的方式计算网络结点的权重;根据已经计算完毕网络中结点的权重,从权重较大的结点开始利用贪婪搜索的方式扩展一个区域作为寻找到的蛋白质复合物;最后通过定义好的条件过滤掉不符合条件的复合物,但是该算法不能保证预测到的蛋白质复合物之间连接紧密。Enright等(Enright A.et al.An effcient algorithm for large-scale detection of protein families.Nucleic Acids Res,30:1575-1584,2002.)提出的MCL(Markov Cluster Algorithm)发现蛋白质互作网络上稠密的簇,通过模拟随机流的方式分析网络结点的分布情况,模拟随机游走的反复迭代在蛋白质互作网络上游走。网络可以看成是引导游走的路径的集合。经过足够的次数的迭代游走之后,游走者如果进入一个稠密的连接区域,就会有很小的概率走出来。该算法利用一个膨胀系数将高密度连接区域与低密度链接区域分开,但是膨胀系数会影响算法寻找到的蛋白质簇的结构,膨胀系数越大簇的数量越大。Rungarityotin等(Rungsarityotin W.et al.Identifying protein complexes directly from high-throughput tap data with markov random fields.BMC Bioinformatics,8:482.2007.)提出一个新的基于马尔科夫随机域MRF(Markov Random Feilds)的蛋白质复合物识别算法,MRF应用概率模型确定蛋白质互作网络上假阴性和假阳性的结点的质量,定义每个蛋白质的质量分数由其周围的邻居决定,根据已经确定的蛋白质的质量分数寻找蛋白质复合物。King等(King AD,Przulj N,and Jurisica I.Protein complex prediction via cost-based clustering.Bioinformatics,20(17):3013-20,2004.)提出的RNSC(the Restricted Search Clustering)尽力发现蛋白质复合物通过把网络中的定点集划分为不同的簇。RNSC算法开始随机指定一个簇类,然后不断地对这些定点集进行再划分使得划分分数达到最大值,最后根据划分的网络子集,即功能模块的最小、密度以及功能同源性,对这些功能模块进行过滤。Palla等(Palla G,Derényi I,Farkas I,and Vicsek T.Uncovering the overlapping community structure of complex networks in nature and society.Nature,435(7043):814-818,2005.)提出基于图论的计算方法CPM,是一种基于团渗透的算法,通过挖掘图中相互连通的若干k-团组成的一个k-团链。k-团是指包含k个顶点的全连通图。如果两个k-团有k-1个公共顶点,则称这两个k-团是邻接的。一系列邻接的k-团组成一个k-团链。如果两个k-团出现在一个k-团链中,则称这两个k-团是连通的。但是算法CPM的结果数据集与k值有关,k值较大获得连通的k-团集合的规模较小,且内部结点之间连接比较紧密。算法CPM在蛋白质网络中能够识别到的蛋白质复合物数量较少,特别是k取值比较大时能够识别到的蛋白质复合物就更少。对于较小的k取值算法CPM通常会发生规模比较庞大的k-团集合。这样的k-团集合包含了规模大于k的团结构和比较稀疏的k-团链。在实际应用中,更希望将这样的k-团集合分裂成多个比较稠密的团。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611099607.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top