[发明专利]基于多源数据融合及多目标优化的蛋白质复合物识别方法在审
申请号: | 201711190016.3 | 申请日: | 2017-11-24 |
公开(公告)号: | CN108009403A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 朱媛;彭晓宇;吴崇 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/18;G06F19/12 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 龚春来 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 融合 多目标 优化 蛋白质 复合物 识别 方法 | ||
本发明公开了基于多源数据融合及多目标优化的蛋白质复合物识别方法,包括对蛋白质相互作用网络数据进行预处理,得到邻接矩阵;蛋白质复合物初步聚类,得到初始蛋白质复合物模块;进一步优化复合物模块,在优化过程中融合蛋白质相互作用网络数据的拓扑结构特性和GO注释数据的功能相似特性,并结合自适应多目标黑洞优化算法框架进行寻优操作,得到更加精确的蛋白质复合物模块;进行后处理操作,得到最终的最优蛋白质复合物。本发明提高了蛋白质复合物的识别速度和识别精度,适用于蛋白质相互作用网络并可拓展到至其他复杂社区网络分析中,在复杂网络分析中具有很强的实用性。
技术领域
本发明涉及生物信息学领域,尤其涉及一种基于多源数据融合及多目标优化的蛋白质复合物识别方法。
背景技术
蛋白质是基因表达的产物,是生物体生理功能的执行者,也是生命现象的直接体现者。蛋白质组学是对蛋白质所含特性进行系统化研究的学科,能为生物系统在健康和疾病状态下的结构、功能和调控提供详细的描述。几乎所有的生物过程,都是通过一系列的蛋白质相互作用完成的。从系统生物学的角度,利用蛋白质相互作用网络研究和分析生物功能具有重要的前景和实用价值。
蛋白质复合物是在相同时间和空间通过相互作用组成的一个多分子机制的蛋白质集合,它是蛋白质执行其功能的主要形式。识别蛋白质复合物不仅有利于理解复杂的生命活动,同时为挖掘复杂疾病生成机理及合理的药物开发提供理论支撑。随着高通量实验技术及蛋白质组学的发展,使得人们利用网络理论的方法探究蛋白质功能、相互作用关系及挖掘复杂疾病机理成为可能。大量研究表明,蛋白质网络(生物体内所有蛋白质间的相互作用关系)具有明显的模块化结构,这些结构通常与蛋白质复合物相对应,利用蛋白质网络识别蛋白质复合物可以提高效率,并指导生物实验。但是,通过高通量测序技术得到的蛋白质相互作用数据往往具有较高的假阳性和假阴性,单一利用蛋白质相互作用数据,会影响蛋白质复合物识别的精准率。
随着生物技术的发展,多源生物数据不断涌现,如蛋白质相互作用(ProteinProtein Interaction,PPI)数据,基因本体(Gene Ontology,GO)数据、时间序列RNA-seq数据、时间序列的基因表达数据、亚细胞定位信息、疾病相关数据库等多源信息。因此,通过整合多源数据,提高蛋白质复合物的识别精度,成为备受关注的研究方向。
发明内容
有鉴于此,本发明的实施例提供了一种多源生物信息的融合策略,并结合多目标优化方法识别蛋白质复合物,最终实现蛋白质复合物的识别和预测的基于多源数据融合及多目标优化的蛋白质复合物识别方法。
本发明的实施例提供基于多源数据融合及多目标优化的蛋白质复合物识别方法,包括以下步骤:
S1.将蛋白质相互作用网络看成是全连通图,预处理,得到邻接矩阵;
S2.将邻接矩阵中的所有蛋白质节点进行聚类,得到初步的蛋白质聚类模块;
S3.在初步的蛋白质聚类模块的基础上进一步优化每一个聚类模块,在优化过程中融合蛋白质相互作用网络数据的拓扑结构特性和GO(Gene Ontology)注释数据的功能相似特性,并结合自适应多目标黑洞优化算法框架进行寻优操作,将每个蛋白质模块看作黑洞,每个蛋白质节点看作星点,黑洞中心是初始粗聚类模块的聚类中心,通过选择和删除不同于原个体的新星点来不断更新黑洞,计算新黑洞与原星点所在黑洞的适应值,进行比较,若新黑洞的适应值优于原有的黑洞,则用新产生的黑洞替代原有的黑洞,得到蛋白质复合物模块;
S4.进行后处理,去除在每个蛋白质复合物模块中与其他蛋白质节点没有相连接边的孤立节点,并去除所有规模小于3的蛋白质复合物模块,经过处理得到的蛋白质复合物模块即为该方法识别的最优蛋白质复合物。
进一步,所述步骤S1中,邻接矩阵通过以下方法得到:
S1.1.获取蛋白质相互作用数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711190016.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种企业咨询服务系统装置
- 下一篇:圆管钻孔夹具
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置