[发明专利]一种基于可解释维度图神经网络的蛋白质分类方法在审

申请号：	202210238557.3	申请日：	2022-03-11
公开（公告）号：	CN114678065A	公开（公告）日：	2022-06-28
发明（设计）人：	彭浩;苏丁力;杨润泽;杨智钦;李昂生	申请（专利权）人：	北京航空航天大学
主分类号：	G16B20/00	分类号：	G16B20/00;G06N3/04;G06N3/08
代理公司：	成都帝鹏知识产权代理事务所(普通合伙) 51265	代理人：	李华
地址：	100000***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于可解释维度神经网络蛋白质分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于可解释维度图神经网络的蛋白质分类方法，基于从蛋白质分子的图数据中获取邻接对称矩阵；利用邻接矩阵估计蛋白质图结构的节点表示向量维度，作为最优估计维度，并构建最优估计维度的候选集；基于最优估计维度的候选集，对可解释维度图神经网络模型进行训练，训练中蛋白质图结构被嵌入到最佳拟合维度；基于训练好的图神经网络模型进行蛋白质分类任务，得到蛋白质的预测类型。本发明用于解决现有方法忽略维度估计，导致蛋白质分类准确率欠佳，效率不高的问题。

技术领域

本发明属于蛋白质分类技术领域，特别是涉及一种基于可解释维度图神经网络的蛋白质分类方法。

背景技术

图数据是由节点和边组成的非线性数据，为现实世界中的各种系统提供了统一的建模方式。为了解决以向量为输入的机器学习算法难以直接应用于图数据的问题，出现了将图数据映射为矢量化表示(又名嵌入向量)的图表示学习技术(又名图表征学习)。近年来，图神经网络(GNN)成为了图表示学习的主流方法。

蛋白质分子由氨基酸以“脱水缩合”的方式组成，可以自然地用图数据表示。

现有的蛋白质分类方法，虽然有采用图神经网络来判断，均没有考虑维度问题。其既没有将蛋白质图结构嵌入到统一的维度中，也没有对拓扑结构不同的蛋白质分子采用不同的图表示维度，导致嵌入结果欠佳。而表示维度作为超参数，对GNN模型的性能有显著影响：过少的维数会降低模型的表现能力，过大的维数会导致过拟合，还会导致模型参数和复杂度的增加。

对于维度估计问题，目前的图神经网络训练方案普遍是将维度作为超参数，根据领域知识或经验进行调参，一般使用基于网格搜索(Grid Search)或穷举的方法，训练多个不同维度的GNN模型来确定最佳嵌入维度。基于网格搜索这类启发式维度选择的方法需要花费巨大的时间和计算资源，而且通常无法得到最优表示维度，导致GNN的训练结果欠佳。比如网格搜索以N为间隔枚举维数，无法精确找到枚举间隔内的最优维数；通过穷举可以得到准确的最优维度，但这种方法缺乏理论依据，得到的最优维度没有可解释性。

发明内容

为了解决上述问题，本发明提出了一种基于可解释维度图神经网络的蛋白质分类方法，用于解决现有方法忽略维度估计，导致蛋白质分类准确率欠佳，效率不高的问题。

为达到上述目的，本发明采用的技术方案是：一种基于可解释维度图神经网络的蛋白质分类方法，包括步骤：

S10,从蛋白质分子的图数据中获取邻接对称矩阵；

S20,基于邻接矩阵估计蛋白质图结构的节点表示向量维度，作为最优估计维度；

S30,基于最优估计维度得到最优估计维度的候选集；

S40,基于最优估计维度的候选集，对可解释维度图神经网络模型进行训练，训练中蛋白质图结构被嵌入到最佳拟合维度；

S50,基于训练好的图神经网络模型进行蛋白质分类任务，得到蛋白质的预测类型。

进一步的是，在所述步骤S10中，图数据中图结构的节点代表氨基酸，图结构的边代表氨基酸间的化学键；从蛋白质分子的图数据中获取氨基酸间化学键对应的邻接矩阵；

其中，邻接矩阵A是一个用于表示蛋白质图结构的N*N的二维数组，N为蛋白质中氨基酸的数量。

进一步的是，在所述S20中,基于邻接矩阵估计蛋白质图结构的节点表示向量维度，作为估计维度，包括步骤：

S21，定义衡量蛋白质图结构节点属性不确定性的属性熵，属性熵由氨基酸数量和氨基酸的向量维度计算得到；