[发明专利]基于数据增强与多级信息最大化的图关系数据的分类方法在审
申请号: | 202310002337.5 | 申请日: | 2023-01-03 |
公开(公告)号: | CN115938504A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张瀚;赵青青;何孟遥;全雄文 | 申请(专利权)人: | 南开大学 |
主分类号: | G16C20/40 | 分类号: | G16C20/40;G16C20/30;G16C20/70;G06F18/24;G06N3/0464;G06N3/047;G06N3/048;G06N3/09 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 梁亚静 |
地址: | 300110*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 增强 多级 信息 最大化 关系 分类 方法 | ||
本发明涉及一种基于数据增强与多级信息最大化的图关系数据的分类方法,属于特征提取技术领域。在模型构建的过程中,进行特征提取,对结构图进行增强处理,增加了样本数量,更加本质和鲁棒的特征提取提升了准确性;对每个视图利用全连接神经网络和图卷积神经网络对图关系数据进行学习,从而将每个视图的节点特征信息和拓扑信息合并转化为局部表示和全局表示;基于多级信息最大化规则进一步分级优化全局表示和局部表示从而得到图关系数据的有效表示;将最终每层的表示相加,输入到分类器中,得到分类预测结果;同时,为了提升分类的准确性,根据交叉熵分类损失函数对模型进行监督训练,提升分类准确性。
技术领域
本发明涉及特征提取技术领域,具体涉及一种基于数据增强与多级信息最大化的图关系数据的分类方法。
背景技术
在分子领域,通常通过节点和边信息来表示分子的结构图,以便于根据节点和边信息这些图关系数据进行科研研究。图关系数据的任务主要分为两种级别:节点级别和图级别。节点级别的任务又可分为链路预测和节点分类问题,主要关注的是节点和边层面的特征。图级别任务不依赖于某个节点或某条边的属性,例如药物分子的分类,这类问题更多地考虑整个图的信息。
对于图级别任务,传统的机器学习和深度学习方法很难提取图中的特征,例如基于随机游走的方法,它的基本思想是将图关系数据通过随机游走的方式处理为规则的特征向量,然后送入下游分类器中。它无法对图关系数据中的信息直接利用,在随机游走的过程中必然会造成信息丢失,尤其是拓扑信息的损失。
因此,相关技术中在对图关系数据进行特征提取过程中存在数据丢失,特征提取准确度差的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于数据增强与多级信息最大化的图关系数据的分类方法,以克服目前对图关系数据进行特征提取过程中存在数据丢失,特征提取准确度差的问题。
为实现以上目的,本发明采用如下技术方案:
一方面,一种基于数据增强与多级信息最大化的图关系数据的分类模型训方法,包括:
确定数据集,以所述数据集中每个样本的基本单元为节点,以符合预设关系的基本单元之间的预设关系为边,构建每个样本的结构图;
按照预设比例随机去除所述结构图的部分边后,将剩余图作为增强结构图,所述结构图和所述增强结构图构成双视图;
对于每个视图,分别使用全连接神经网络和图卷积神经网络对全图关系数据进行学习,得到每个视图的节点特征信息和拓扑信息;
融合所述拓扑信息和特征信息,并获取对应视图的局部表示和全局表示;
考虑结构图和增强结构图的全局表示和局部表示之间的约束,基于信息最大化规则,得到损失函数;
将图卷积神经网络中每层的表示进行相加,并将相加后的表示输入分类器,输出所述结构图的分类结果;
根据所述分类结果和标签计算交叉熵分类损失函数,其中,所述标签为根据结构图的分类预先标注;根据所述交叉熵分类损失函数对模型进行监督训练,当所述交叉熵分类损失函数稳定时,得到训练好的目标模型。
可选的,所述数据集包括化合物集,所述基本单元包括预设原子组;以所述化合物中的预设原子组为节点,以两个预设原子组为边,构建每个化合物的结构图;其中,所述预设原子组中包括至少一个原子;或,
所述数据集包括对象实体集,所述基本单元包括事物;以所述事物为节点,以两个事物之间的关系为边,构建每个对象实体的结构图。
可选的,所述化合物包括高分子化合物和普通化合物,其中,所述普通化合物为非高分子化合物;所述高分子化合物包括蛋白质和非蛋白质高分子化合物。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002337.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置