[发明专利]基于主动半监督图神经网络的蛋白质分类方法有效
申请号: | 202110389844.X | 申请日: | 2021-04-12 |
公开(公告)号: | CN113066528B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 解宇;解子璇;吕圣泽;鱼滨;张琛 | 申请(专利权)人: | 山西大学;西安电子科技大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 监督 神经网络 蛋白质 分类 方法 | ||
1.一种基于主动半监督图神经网络的蛋白质分类方法,其特征在于,构建并迭代训练图神经网络,借鉴主动学习和半监督学习两种学习方法的优点,利用信息熵百分比和欧几里得百分比两个指标,选取测试集的样本进行伪标记扩充训练集,该方法的具体步骤包括:
(1)生成蛋白质训练集与测试集:
(1a)随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集,并对样本集中每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的图结构,将所有图结构组成训练集;
(1b)随机选取未知种类的至少9000个蛋白质样本组成样本集,并对样本集内的每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的所有图结构,将所有图结构组成测试集;
(2)构建图神经网络:
(2a)搭建两个结构相同的10层的图神经网络GNN1和GNN2,其结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层;
(2b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数;
(3)训练图神经网络:
(3a)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中,输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量;
(3b)按照下式,分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比:
其中,Ez表示测试集中第z个蛋白质图的信息熵,z=1,2…M,M表示测试集中蛋白质图的总数,l表示蛋白质图的类别标号,,l=1,2…L,L表示测试集中所有蛋白质图类别的总数,∑表示求和操作,pzl表示测试集中第z个蛋白质图预测为第l类的概率,log表示以2为底的对数操作,表示测试集中第z个蛋白质图的信息熵百分比,k表示测试集中所有蛋白质图中信息熵小于Ez的图的总数,Dz表示测试集中第z个蛋白质图到最近聚类中心的欧几里得距离,min表示取最小值操作,|·|2表示2-范数操作,hz表示测试集中第z个蛋白质图的特征向量,表示测试集利用软聚类得出的类的聚类中心,表示测试集中第z个蛋白质图的欧几里得百分比,s表示所有测试集中蛋白质图中图的最小欧几里得距离大于Dz的图的总数;
(3c)按照下式,分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值:
其中,Iz表示输入到图神经网络GNN1与GNN2的测试集中第z个蛋白质图的信息值,α表示信息熵百分比的重要性权重,β表示欧几里得距离百分比的重要性权重,且α+β=1,α,β∈[0,1];
(3d)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序,并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合;
(3e)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3f)判断添加标签的蛋白质图的数量Q是否达到900个,若是,则执行步骤(3g),否则,将本次迭代后的测试集作为当前迭代的测试集执行步骤(3a)操作;
(3g)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中,利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率,分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合;
(3h)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3i)判断添加标签的蛋白质图数量Q是否达到1800个,若是,得到训练好的图神经网络GNN1和GNN2后执行步骤(4),否则,将本次迭代后的测试集作为当前迭代的测试集后执行步骤(3g);
(4)对无标签蛋白质样本进行预测:
将待识别的无标签蛋白质样本输入到训练好的图神经网络GNN1和GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该蛋白质样本的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该蛋白质样本的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学;西安电子科技大学,未经山西大学;西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110389844.X/1.html,转载请声明来源钻瓜专利网。