[发明专利]蛋白质三级结构的预测方法及系统有效
| 申请号: | 201910907112.8 | 申请日: | 2019-09-24 |
| 公开(公告)号: | CN110689918B | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 薛雅琪 | 申请(专利权)人: | 上海宽慧智能科技有限公司 |
| 主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B15/20;G06N3/04 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 200050 上海市长宁区虹桥*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 蛋白质 三级 结构 预测 方法 系统 | ||
1.一种蛋白质三级结构的预测方法,其特征在于,包括:
网络结构搭建步骤:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;
两个头输出设置步骤:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;
距离概率分布获取步骤:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;
角度概率分布获取步骤:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;
损失函数l构造步骤:
-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;
-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;
参数集获取步骤:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合步骤:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集自信息;
神经网络的学习步骤:根据共享神经网络的参数集自信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;
预测结果计算步骤:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;
蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
2.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2;
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
3.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
特征输入步骤:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;
所述L为蛋白质的残基氨基酸的个数,L设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
4.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
距离输出结果获取步骤:根据L*L*C1信息,输出距离的预测结果输出信息;
其中,所述L为蛋白质的残基氨基酸的个数,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
5.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
角度输出结果获取步骤:根据L*C2信息,获取角度的预测结果输出信息;
对于角度的预测结果输出为L*C2,其中,所述L为蛋白质的残基氨基酸的个数,C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宽慧智能科技有限公司,未经上海宽慧智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907112.8/1.html,转载请声明来源钻瓜专利网。





