[发明专利]一种基于自注意力图神经网络的蛋白质模型质量评估方法在审
申请号: | 202210245508.2 | 申请日: | 2022-03-14 |
公开(公告)号: | CN115101121A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 刘栋;张贵军;刘俊;张彪;葛锋其;黄兆鸿 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 赵芳 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意 力图 神经网络 蛋白质 模型 质量 评估 方法 | ||
一种基于深度神经网络评估蛋白质结构模型质量的方法,设计了一种自注意的图神经网络能预测出蛋白质模型的质量,根据输入模型提取出特征:蛋白质模型中重原子编码、局部空间坐标、高斯距离谱和氢键编码,预测出蛋白质模型和天然蛋白每对氨基酸之间的相似度分数以及两者之间的整体相似度分数,从而判定蛋白质模型的质量。本发明将评估分数设在[0,1],分数越高表示与真实的结构越接近。用庞大数据来学习结构相似性,在不依赖于真实结构的情况下,仅根据预测的模型来估计其每个残基的质量,对于进一步的模型精修以及挑选具有重要意义。
技术领域
本发明技术涉及人工智能、计算机应用、生物信息学领域,尤其涉及的是一种基于神经网络预测的蛋白质模型质量评估方法。
背景技术
蛋白质是生命的物质基础,是构成细胞的基本有机物,是生命活动的主要承担者,没有蛋白质就没有生命。所以,蛋白质是生命科学领域研究的重中之重。蛋白质要形成一定的结构才来执行对应的功能。随着测序技术的发展,通过费时,费力,且昂贵的实验手段(X射线晶体衍射、核磁共振以及冷冻电镜)测定蛋白质三维结构不能满足高通量获取蛋白质结构的需要。因此,从蛋白质的氨基酸序列预测其三维结构成为目前极具挑战且具有重大意义的研究方向之一。
全球蛋白质结构关键评估大赛(CASP)每两年举行一次,是世界范围内对蛋白质结构预测技术方法的比赛。而蛋白质模型质量评估是其中的重要赛事之一,并且是蛋白质结构预测的关键组成部分,其有助于进一步的模型精修和挑选。通常在蛋白质结构预测中,计算实验测得结构与预测的结构对应每个残基的距离,计算均方根偏差(RMSD)评价预测结构的精度。但是RMSD这个指标对于局部残基的偏差非常敏感。如果部分残基的匹配度较差,可能会导致整体分数的显著下降。因此RMSD不能准确的反映出预测蛋白质模型的精度。
近些年来提出了一种局部模型质量评估指标lDDT(The Local DistanceDifference Test)。该方法计算蛋白质结构中在以内的残基对距离,通过比较真实结构和预测模型在不同距离阈值下的距离差异来评估每一个残基的预测质量。lDDT的优点是能够精确评估局部结构的精度。评估蛋白质结构模型的质量是蛋白质结构预测的关键组成部分。模型质量评估有助于在结构预测的多个阶段对预测的蛋白质模型进行验证和评价。因此,如何设计一种模型评估方法,在不依赖于真实结构的情况下,仅根据预测的模型来估计其每个残基的lDDT,对于进一步的模型精修以及挑选具有重要意义。
发明内容
为了克服现有的蛋白质结构预测方法的蛋白质模型的质量无法准确评估的不足,本发明提供一种基于自注意力图神经网络的蛋白质模型质量评估方法,设计了一种新的蛋白质模型质量评估方法,在输入的蛋白质模型中提取空间信息,序列信息,残基间的相互作用力作为网络的输入,高精度的预测蛋白质模型的质量。
本发明解决其技术问题所采用的技术方案是:
一种基于自注意力图神经网络的蛋白质模型质量评估方法,所述方法包括以下步骤:
1)构建数据集:首先用PISCES服务器在PDB数据库中筛选出蛋白质序列,长度在50-300个残基,并以序列最大相似度35%去除冗余,然后,用比较建模、Native结构扰动和基于深度学习的建模方法折叠生成全局距离测试总分GDT-TS的分数在[50,100]之间的模型构成数据集,所述数据集划分为训练集、验证和测试集;
2)构建网络特征:蛋白质序列中每个残基的重原子的编码表示,相邻的三个重原子构建局部空间坐标系,欧氏空间中邻近重原子的距离以及氢键作用力约束,过程如下:
2.1)蛋白质中含有20种氨基酸,其中每种氨基酸又有不同属性的重原子总共有167种重原子,对每种重原子进行独热编码;
2.2)在蛋白质的每个重原子上构建局部空间坐标系,构建方法:针对序列中的每个重原子,以自身为中心寻找空间中相邻的两个重原子构成一个平面并在该平面中的生成向量计算垂直于该平面的向量然后再次计算出垂直向量与向量的向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210245508.2/2.html,转载请声明来源钻瓜专利网。