[发明专利]一种基于多损失训练的蛋白质残基接触预测方法在审
| 申请号: | 202110764396.7 | 申请日: | 2021-07-06 |
| 公开(公告)号: | CN113571126A | 公开(公告)日: | 2021-10-29 |
| 发明(设计)人: | 李章维;王晓飞;胡安顺 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
| 地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 损失 训练 蛋白质 残基 接触 预测 方法 | ||
1.一种基于多损失训练的蛋白质残基接触预测方法,其特征在于,所述预测方法包括以下步骤:
1)从蛋白质数据库中搜寻已知结构的蛋白且蛋白与蛋白之间的同源性小于30%,并计算残基之间的距离是否如果是,确定蛋白质残基的标签信息,得到数据集Dataset={Pi,Yi},其中,Pi表示蛋白质序列中的第i条,Yi表示Pi的标签,i=1,2,…,N,N是蛋白质序列的数量;
2)由Dataset中蛋白质序列Pi,用HHblits在Uniclust30数据库对序列进行搜索,获得蛋白质序列Pi的多序列比对MSAi,得到训练数据集Trainset={MSAi,Yi},其中,MSAi表示第i条序列的多序列比对,Yi表示第i条序列的标签,i=1,2,…,N,N是蛋白质序列的数量;
3)由MSA可以得到序列中每个残基的“进化”信息,即MSA的每一列表示序列中一个残基的变化,计算获得第i列a类残基出现的频率以及第i列与第j列同时出现a与b残基对的频率,但考虑搜寻到MSA中序列的有效性,对MSA中的序列加权处理,分别记作fi(a):fij(ab):其中,表示a残基在第i列中与第n行残基是否相同,相同为1,否则为0,表示MSA中的所搜寻到的第n条序列与原先蛋白质序列识别度>80%,表示第i与j列在第n行是否出现a、b残基,出现为1,否则为0,用fi(a)和fij(ab)分别作为单一残基与残基对的概率,i,j=1,2,…,L,L为序列的长度;
4)计算蛋白质序列的协方差矩阵,记作Covij(ab):Covij(ab)=fij(ab)-fi(a)fj(b),其中,i,j=1,2,…,L,L为序列的长度,a=1,2,…,21,表示20种残基类型和MSA未匹配而出现的空位gap;
5)计算协方差的逆矩阵,考虑协方差矩阵的奇异性,当为非奇异矩阵时直接求解逆矩阵,记作Θij:Θij=Covij-1,若为奇异矩阵,Θij:Θij=(Covij+ε*Eij)-1,其中,ε为矫正系数,Eij表示元素全为1的矩阵,使Covij+ε*Eij矩阵可逆,i,j=1,2,…,L,L为矩阵的行数或列数;
6)根据步骤3)至5),得到各个蛋白质序列的逆协方差矩阵Θi,i=1,2,…,N,N是数据集中蛋白质序列的数量;
7)将二维矩阵Θ转为三维块状矩阵作为神经网络的特征输入,记作Mfea,其中,Mfea的尺寸为21×21×L×L;
8)根据步骤1)至7),生成所有Pi的与对应标签Yi组成样本集合
9)搭建深度神经网络框架,该深度神经网络框架共有五个部分组成,第一部分由一个卷积层、一个归一化层、一个ReLU层组成;第二、三、四部分是由相同的块组成,该块有二条支路,第一条支路有二个卷积层、二个归一化层、一个ReLU层,第二条支路有二个空洞卷积层、二个归一化层、一个ReLU层,输出为两个支路的通道拼接并通过一个卷积层将通道数缩减,通过空洞卷积在不增加计算量的前提下扩大感受野,将两种提取的不同特征融合输出,卷积块的输出为二条支路的输出加上输入的恒等映射;第五部分为输出层,由一个卷积层、一个Sigmoid函数组成;
10)计算损失,记作Loss,模型输出三个map,分别为直接输出的map1、map1关于对角线翻转而得到map2、map1与map2取平均得到map3,对应计算三个Loss1、Loss2、Loss3,共同作用于训练模型,即Loss=Loss1+Loss2+Loss3,测试时只取map3作为最终输出;
11)使用步骤9)搭建的深度神经网络框架在S上学习预测模型,记作ProPred;
12)将待测蛋白质P的Mfea输入模型ProPred中,得到该蛋白质序列的残基接触。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110764396.7/1.html,转载请声明来源钻瓜专利网。





