[发明专利]一种基于图模型的蛋白质复合物识别方法在审
申请号: | 201611099607.5 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106778063A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 林志杰 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 上海申汇专利代理有限公司31001 | 代理人: | 翁若莹,吴小丽 |
地址: | 201100 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 蛋白质 复合物 识别 方法 | ||
技术领域
本发明涉及一种蛋白质复合物识别方法,尤其涉及一种基于H-index图模型的蛋白质复合物识别算法HPCMiner(H-index based Protein complex Miner),将图模型H-index看作蛋白质复合物的核,通过考察扩展该图模型的一阶邻居结点识别蛋白质复合物。
背景技术
在后基因时代,系统分析蛋白质互作网络拓扑结构,从蛋白质网络中识别蛋白质复合物,对预测蛋白质功能、解释特定的生物进程具有重要作用。同时,蛋白质复合物识别也为研究蛋白质互作网络提供了一种研究途径。蛋白质网络可以用图模型表达,其中结点是蛋白质,边代表蛋白质之间的相互作用。这样的图模型为理解复杂的生物系统提供了一个新的视角。
虽然可以对蛋白纸互作网络利用图模型的表达方法做研究,但是目前对蛋白质互作网络上的蛋白质复合物或蛋白质模块的识别,还停留在蛋白质复合物在图模型里呈现的是一个密集的蛋白质簇这样一个概念。目前对蛋白质复合物在相互作用网络中对应的子图模型还没有严格的数学表述和统一的定义。所以,很多研究者将蛋白质复合物识别问题转化为稠密子图的求解问题。
为了在蛋白质网络中发现这些重要且有生物意义的稠密子图,Sprin和Mimy(Spirin V and Mimy LA.Protein complexes and functional modules in molecular networks.Proc Natl Acad Sci USA,100(21):12123-12128,2003.)通过挖掘蛋白质中ds=1(dense subgraph,ds)的全连通图(极大团)来识别蛋白质复合物。然而,由于目前能够获得的蛋白质相互作用还不完全,仅通过挖掘全连通图来识别蛋白质复合物存在很大的局限性。最近,有很多蛋白质复合物识别方法,Bader和Hogue(Bader G.and Hogue C.An automated method for finding molecular complexes in large protein interaction networks.BMC Bioinformatics,4:2,1.)提出的MCODE(Molcular Complex Detection)算法,算法以蛋白质互作网络为输入,通过寻找稠密的蛋白质簇发现蛋白质复合物。MCODE算法可以大致分为三个阶段:第一阶段利用基于网络密度的方式计算网络结点的权重;根据已经计算完毕网络中结点的权重,从权重较大的结点开始利用贪婪搜索的方式扩展一个区域作为寻找到的蛋白质复合物;最后通过定义好的条件过滤掉不符合条件的复合物,但是该算法不能保证预测到的蛋白质复合物之间连接紧密。Enright等(Enright A.et al.An effcient algorithm for large-scale detection of protein families.Nucleic Acids Res,30:1575-1584,2002.)提出的MCL(Markov Cluster Algorithm)发现蛋白质互作网络上稠密的簇,通过模拟随机流的方式分析网络结点的分布情况,模拟随机游走的反复迭代在蛋白质互作网络上游走。网络可以看成是引导游走的路径的集合。经过足够的次数的迭代游走之后,游走者如果进入一个稠密的连接区域,就会有很小的概率走出来。该算法利用一个膨胀系数将高密度连接区域与低密度链接区域分开,但是膨胀系数会影响算法寻找到的蛋白质簇的结构,膨胀系数越大簇的数量越大。Rungarityotin等(Rungsarityotin W.et al.Identifying protein complexes directly from high-throughput tap data with markov random fields.BMC Bioinformatics,8:482.2007.)提出一个新的基于马尔科夫随机域MRF(Markov Random Feilds)的蛋白质复合物识别算法,MRF应用概率模型确定蛋白质互作网络上假阴性和假阳性的结点的质量,定义每个蛋白质的质量分数由其周围的邻居决定,根据已经确定的蛋白质的质量分数寻找蛋白质复合物。King等(King AD,Przulj N,and Jurisica I.Protein complex prediction via cost-based clustering.Bioinformatics,20(17):3013-20,2004.)提出的RNSC(the Restricted Search Clustering)尽力发现蛋白质复合物通过把网络中的定点集划分为不同的簇。RNSC算法开始随机指定一个簇类,然后不断地对这些定点集进行再划分使得划分分数达到最大值,最后根据划分的网络子集,即功能模块的最小、密度以及功能同源性,对这些功能模块进行过滤。Palla等(Palla G,Derényi I,Farkas I,and Vicsek T.Uncovering the overlapping community structure of complex networks in nature and society.Nature,435(7043):814-818,2005.)提出基于图论的计算方法CPM,是一种基于团渗透的算法,通过挖掘图中相互连通的若干k-团组成的一个k-团链。k-团是指包含k个顶点的全连通图。如果两个k-团有k-1个公共顶点,则称这两个k-团是邻接的。一系列邻接的k-团组成一个k-团链。如果两个k-团出现在一个k-团链中,则称这两个k-团是连通的。但是算法CPM的结果数据集与k值有关,k值较大获得连通的k-团集合的规模较小,且内部结点之间连接比较紧密。算法CPM在蛋白质网络中能够识别到的蛋白质复合物数量较少,特别是k取值比较大时能够识别到的蛋白质复合物就更少。对于较小的k取值算法CPM通常会发生规模比较庞大的k-团集合。这样的k-团集合包含了规模大于k的团结构和比较稀疏的k-团链。在实际应用中,更希望将这样的k-团集合分裂成多个比较稠密的团。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611099607.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:出芽短梗霉基因组尺度代谢网络模型及其应用
- 下一篇:无参转录组自动化分析方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用