[发明专利]直接利用蛋白质多序列联配信息构建蛋白质结构的方法有效
申请号: | 202011016871.4 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112185466B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 卜东波;鞠富松;朱建伟 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直接 利用 蛋白质 序列 信息 构建 结构 方法 | ||
本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统,包括:使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。本发明直接从多序列联配学习残基间距离,因此可以提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。
技术领域
本发明属于生物和计算机技术领域,并特别涉及一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统。
背景技术
蛋白质结构预测系统(例如AlphaFold,RaptorX-Contact和trRosetta)最近取得的飞跃,
其中的核心技术之一是残基间接触或距离的预测。近期的进展表明:准确的残基间距离可用于为构建高精度的蛋白质三级结构。
现有的残基间距离预测都是基于残基间的“共进化”现象,即:在蛋白质进化过程中,有相互作用的两个残基中的一个残基发生变异时,另一个残基也要发生相应的变异,以维持相互作用,进而维持整体空间结构以及生物学功能。基于上述生物学观察,研究者提出了多种统计模型和算法以预测残基间的相互作用,并进一步预测残基间距离。
现有的残基间相互作用预测方法,大多使用直接关联性分析技术:直接关联性分析尝试建模和测量两个氨基酸之间直接关联性的强度,并排除间接关联性。虽然直接关联性分析很有效,但它具有如下两方面的不足:
(1)直接关联性分析不是直接使用目标蛋白质的多序列联配(Multiple sequencealignment,MSA),而是基于其进一步处理后的数据(例如协方差),从而造成多序列联配中原始信息的丢失;
(2)直接关联性分析基于的前提是:残基间协方差阵包含残基间直接关联关系;然而,此前提并不总是成立。如图1所示,两个蛋白的多序列联配非常不同;从条件分布可以看出,第一个多序列联配中残基1和2之间的直接关联性更强。然而,从上述两个多序列联配计算出的协方差矩阵完全相同;这意味着基于协方差矩阵无法区分这两个蛋白质。实际上,由于任意两个位置上的残基具有相同的联合分布,导致二体统计量都无法区分这两个多序列联配。
计算两个残基的条件分布是推断直接相关性的一条可行途径,但由于样本空间大且数据不足,导致难以实施。
发明内容
本发明的目的是解决上述现有技术的间接利用多序列联配导致信息丢失的缺陷,提出了一种直接从多序列联配学习残基间距离的方法及系统。本发明的核心和重点是基于蛋白质多序列联配信息,先预测蛋白质残基间距离,最终预测蛋白质的三级结构。本发明由于直接从多序列联配学习残基间距离的神经网络模型CopulaNet和系统ProFOLD;因此可以显著提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。
针对现有技术的不足,本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中包括:
步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011016871.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烤串的自动穿串设备
- 下一篇:一种具有清理功能的自动肉类切片装置