[发明专利]一种基于BSO优化的蛋白质复合物识别方法有效
申请号: | 201510097724.7 | 申请日: | 2015-03-05 |
公开(公告)号: | CN105590039B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 沈显君;胡小华;何婷婷;杨进才 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 湖北武汉永嘉专利代理有限公司42102 | 代理人: | 张惠玲 |
地址: | 430079 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bso 优化 蛋白质 复合物 识别 方法 | ||
技术领域
本发明涉及系统生物学技术领域,具体涉及到一种基于BSO优化的蛋白质复合物识别方法。
背景技术
人类基因组计划的顺利进行标志着后基因组时代的到来。蛋白质是构成一切细胞和组织结构必不可少的成分,是生命活动最重要的物质基础,但是细胞中的每个蛋白质并不是孤立存在的,而是与其他蛋白质一起进行相互作用来行使其功能的。蛋白质相互作用在生命中起核心作用,不仅是正常生理过程如DNA复制、转录、翻译、新陈代谢、信号传导以及细胞周期控制的基础,也在病理过程中起着至关重要的作用。生物体内所有蛋白质相互作用构成蛋白质相互作用网络(Protein-Protein Interaction Network,简称为PPI网络)。从PPI网络中识别蛋白质复合物对识别疾病基因及药物靶点,深入研究人类疾病致病机理具有重要研究价值。
目前,通过从蛋白质相互作用网络(PPI)中准确识别出蛋白质复合物,进而研究疾病致病基因是当前国内外生物医学研究的热点,但由于蛋白质及其相互作用数量非常庞大,而且迄今为止仍有大量蛋白质及其相互作用功能尚未被标注,采用生物实验方法逐一测试分析,耗时长,成本昂贵,不可持续。
发明内容
本发明所要解决的技术问题是针对上述存在的不足,提出一种基于BSO(Brain Storm Optimization)优化的蛋白质复合物识别新方法,快速识别蛋白质复合物。该方法利用BSO算法强大的全局寻优能力,将蛋白质相互作用网络看成全网络连通图,结合蛋白质的基因本体(Gene Ontology,GO)注释功能信息和蛋白质相互作用网络拓扑结构定义蛋白质节点之间的距离,根据改进的k-means算法进行初步的聚类。继而根据BSO算法的4个寻优原则产生新适应值,对已初步形成的蛋白质模块分别进行模块内和模块外寻优操作,循环迭代,寻找更优的全局解。从而得到准确的蛋白质复合物划分,获得富有生物意义的蛋白质复合物。
本发明解决其技术问题所采用的技术方案是:一种基于BSO优化的蛋白质复合物识别方法。
具体步骤如下:
首先进行分组操作,将整个PPI网络看成是全连通网络,结合蛋白质拓扑结构和GO功能注释信息集定义节点间的距离,将所有的蛋白质节点进行聚类,得到初步的蛋白质聚类模块;采用K-means算法在所有节点中选择出k个初始聚类中心,比较其余节点到各个聚类中心的距离,将其归入到最近的聚类中心所在的模块中,得到初始的k个模块。
然后结合蛋白质相互作用网络的拓扑特性,创造蛋白质新个体作为BSO中的个体,对初始聚类结果进行优化;将每个蛋白质复合物看作一个群,每个蛋白质节点看作为一个个体,群中心则是初步聚类模块的聚类中心。通过选择不同于原个体的新个体,继而由新个体产生新的群,计算新群与原个体所在群的适应值,进行比较,若新群的适应值优于原有的群,则用新产生的群替代原有的群。
最后进行后期处理过程,去除在每个蛋白质复合物中与其他蛋白质节点没有相连边的孤立节点,并去除掉所有规模小于3的蛋白质模块,最后经过处理得到的蛋白质模块即为该方法识别的蛋白质复合物。
上述方案中,所述的蛋白质节点进行分组操作的具体步骤为:候选种子的选择、初始聚类中心选择策略、形成最优聚类模块。
1)候选种子的选择
将PPI网络抽象为由多个蛋白质节点和节点间相互作用所形成的网络连通图,每个蛋白质复合物都是从一个既定的节点开始,经过聚类操作得到一个模块;
定义1直接邻居集合:对于网络G中的每个节点i,其直接邻居集合为:
Neigh(i)={j∈V|(i,j)∈E}
定义2节点的聚类系数:对于一个节点i,令ni表示节点i的Neigh(i)个邻居中具有相互连接的个数,则节点i的聚类系数为:
一个节点的聚类系数是直接邻居节点间所拥有的边数和Neigh(i)个节点间可能构成的最大边数的比值,节点i的聚类系数反映的是该节点的局部密度;
候选种子节点的选择方式即为:首先计算每个节点聚类系数,然后比较每个节点的聚类系数与已经设定的阈值ω,将聚类系数值大于阈值的节点加入到候选种子节点集合seed中。
2)初始聚类中心选择策略
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510097724.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于特征识别的身份认证方法
- 下一篇:生物边标识系统的建立方法和系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用