[发明专利]一种蛋白质预测三维结构的质量评估方法、装置有效
申请号: | 202210754951.2 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115273968B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 管佳威;张闻瀚;金慧玲;王浩博 | 申请(专利权)人: | 杭州力文所生物科技有限公司 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B5/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市萧山区经济技*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 预测 三维 结构 质量 评估 方法 装置 | ||
本发明公开了一种蛋白质预测三维结构的质量评估方法、装置,其技术方案要点是发现描述序列恢复程度的esmif交叉熵损失和描述与真实结构比较的结构质量评估函数TMscore呈线性相关,通过计算预测序列的概率与基准序列的交叉熵来判断预测的结构质量。具体为:将基准序列输入到各种蛋白质结构预测模型得到几千或者几万种三维预测结构。上述三维预测结构也可以是手动折叠氨基酸链得到,也可以是在预测模型输出的三维预测结构的基础上手动微调得到。然后根据上述若干三维预测结构反推回序列,根据反推回的序列与基准序列的差距对三维预测结构的准确性进行判断,从而得到最接近真实蛋白质的三维结构。
技术领域
本发明涉及蛋白质三维结构预测领域,更具体的说是涉及一种蛋白质预测三维结构的质量评估方法、装置。
背景技术
蛋白质是自然界中非常重要的生物分子。基于氨基酸序列直接预测蛋白质的三维结构是一个具有挑战性的问题,对现代生物学和医学产生了重大影响。是否能准确地预测蛋白质三维结构对于蛋白质功能的理解、设计具有新生物学功能的蛋白质以及研发新药等方面均发挥着关键作用。随着人类基因组计划的完成,大量的蛋白质氨基酸序列已经通过基因组测序技术获悉,目前测序分析得到的新的氨基酸序列的数量仍旧以爆炸式的速度增加,而实验确定的三维结构数量的增长速度却远远落后于序列分析。目前主要的实验方法有 X 射线晶体学、核磁共振(NMR)和 冷冻电镜(Cryo-EM)。这些现有的方法往往需要大量的时间和昂贵的资源。
结构预测的一个主要挑战是从生成的三维结构池中选择最佳三维结构。蛋白质结构预测模型,例如Rosetta、RosettaFold、AlphaFold2可以根据一条氨基酸序列预测出大量的蛋白质三维结构,但很难预测哪个结构最接近原生结构。因此,我们希望探索一种只需要输入氨基酸序列即可获得准确度高的预测蛋白质三维结构的方法。
发明内容
针对现有技术存在的不足,本发明的目的之一在于提供一种不需要MSA即可得到准确性高的蛋白质三维结构的蛋白质预测三维结构的质量评估方法。
为实现上述目的,本发明提供了如下技术方案:
一种蛋白质预测三维结构的质量评估方法:
S1,根据基准序列预测得到若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构。该预测结构可以包括与蛋白质的真实结构相差较多的三维结构,本发明对初始输入的预测结构的质量要求较低;
S2,将若干所述预测结构依次输入Esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布;
S3,依次计算所述预测序列与所述基准序列的多分类交叉熵(CCE)得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。
作为优选,所述基准序列和所述预测序列均以矩阵的方式呈现,所述矩阵的第一维度表示序列位点位置信息,所述矩阵的第二维度表示氨基酸类别信息,
所述预测序列与所述基准序列的多分类交叉熵的计算方法为:
其中,CCE为多分类交叉熵,N为蛋白质氨基酸序列的长度,p为基准序列中的每一个氨基酸以独热码表示的概率分布,q为预测序列中的每个位点上氨基酸的概率分布,i为第一维度位点位置信息,j为第二维度氨基酸类别信息。独热码是一种二进制编码方式,它的特点是,用来编码这个数的N位bit中,有且只有一位是1,其余位全部为0。
作为优选,所述预测结构通过以下步骤得到:将所述基准序列输入蛋白质结构预测模型得到或者手动折叠氨基酸链得到或者在蛋白质结构预测模型输出的预测结构的基础上手动调整得到。
针对现有技术存在的不足,本发明的目的之二在于提供一种蛋白质预测三维结构的质量评估装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州力文所生物科技有限公司,未经杭州力文所生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210754951.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光发射模块
- 下一篇:一种将计算机断层扫描数据传输至有限元模型的映射方法