[发明专利]基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法有效
申请号: | 201410842077.3 | 申请日: | 2014-12-30 |
公开(公告)号: | CN104615910B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 张慧玲;贝振东;魏彦杰 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 森林 预测 膜蛋白 螺旋 相互作用 关系 方法 | ||
本发明适用于生物计算领域,提供了一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法。该方法包括下述步骤:收集具有确定三维结构的α跨膜蛋白链构建训练集;基于所述的训练集,分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;收集用于测试的、具有确定一级结构的目标α跨膜蛋白,提取其α螺旋中的残基对特征信息,基于所述预测模型进行预测;根据预测结果判断所述目标α跨膜蛋白中的螺旋对是否存在相互作用的残基对。该方法不仅计算速度快,且准确率高。
技术领域
本发明属于生物计算领域,尤其涉及基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法。
背景技术
目前已知的或正在研究的药物靶点中,膜蛋白约占60%。膜蛋白的三维结构很大程度上决定了其生理功能,而膜蛋白的生理功能往往决定了其药理功能。因此,为了加快膜蛋白靶点药物的研究,对膜蛋白的三维结构的测定十分重要。目前,解析蛋白质三维结构的生物学实验方法主要有X-RAY和NMR法,但这些方法不仅较为复杂,耗时,而且花费较高。有鉴于此,通过计算生物学的方法来获得新的结构显得尤为重要。
目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头预测法。这些方法不仅计算速度较慢,且精度和覆盖度仍有待提高,因此,膜蛋白三维结构的确认工作进展缓慢。
有学者证明了将残基作用关系应用到从头预测法中,不仅可以大大节约三维结构的预测时间,还可以提高预测的精度(所谓残基作用关系是指那些在蛋白质的一级序列中不相邻而在三级结构中邻近的残基对。当两个α螺旋上存在相互作用的残基对时,就认为这两个残基所在的α螺旋存在相互作用关系)。代表性膜蛋白残基作用关系预测方法有Nugent与Jones提出的MEMPACK和Lo等人提出的TMhit。
在基因组数据中,有20%-30%的产物被预测为跨膜蛋白,而实验测定的限制,导致PDB数据库中的跨膜蛋白仅占跨膜蛋白总数的1%左右。鉴于已知的膜蛋白结构十分有限,而目前用于蛋白质残基作用对的预测方法少、且具有准确率低、速度慢耗时长等缺点的现状,寻求一种高效、准确的α跨膜蛋白三维结构的预测方法显得尤为重要。
发明内容
本发明的目的在于提供一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,旨在解决现有α跨膜蛋白三维结构的预测方法少、速度慢耗时长、且准确率低的问题。
本发明是这样实现的,一种基于随机森林预测α跨膜蛋白链的螺旋相互作用关系的方法,包括下述步骤:
收集具有确定三维结构的α跨膜蛋白链构建训练集;
基于所述的训练集,分别提取所述α跨膜蛋白中螺旋上相互作用的残基对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;
收集用于测试的、具有确定一级结构的目标α跨膜蛋白,提取其α螺旋中的残基对特征信息,基于所述预测模型进行预测;
根据预测结果判断所述目标α跨膜蛋白中的螺旋是否存在相互作用的残基对。
本发明基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,不仅方法方便快捷,且预测得到的α跨膜蛋白中残基对的相互作用关系可直接用于判断α跨膜蛋白中α螺旋的相互作用关系,即膜蛋白三维结构预测,并大大减少三维结构预测中算法对蛋白质构象的搜索空间,使得α跨膜蛋白三维结构预测的准确性得到提高。
具体实施方式
为了使本发明要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410842077.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用