[发明专利]一种图神经网络数据采样方法、装置、设备及存储介质在审
申请号: | 202111354483.1 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114048816A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 李东升;张立志;赖志权;刘锋;黄震;乔林波;梅松竹;牛新 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/774;G06N3/063;G06T1/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张艺 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 数据 采样 方法 装置 设备 存储 介质 | ||
本发明公开了一种图神经网络数据采样方法、装置、设备及存储介质;在本方案中,通过对原图数据集的各顶点进行聚类,并根据训练顶点的聚类类别进行排序的方式,使得采样进程在采样时,可在同一聚类内对一批训练顶点同时进行采样,从而提高采样的数据局部性;并且,由于同一个聚类内的训练顶点通常有更相似的属性,是紧密连接的部分,而不同聚类之间的连接很少,因此在同一个聚类内扩展的邻域顶点集中在相同的聚类内,相同聚类内的顶点在存储上是接近的,从而可以提高采样的数据局部性,并且限制邻域扩展的范围,提高子图采样的效率。
技术领域
本发明涉及图数据采样技术领域,更具体地说,涉及一种图神经网络数据采样方法、装置、设备及存储介质。
背景技术
目前,图数据作为一种非结构化的数据,已经广泛应用到推荐系统、社交网络、知识图谱等领域中。图神经网络已经成为处理图数据的有力工具。不同于图像识别和语句处理,现有的图神经网络模型训练过程,需要在数据加载之前在CPU(Central processingunit,中央处理器)上采样每一批次的训练样本,并在GPU(graphics processing unit,图形处理器)上进行模型计算。但是,现实世界的图数据是复杂且不规则的结构,对图数据的采样和遍历过程涉及不规则的内存访问,导致图数据访问随机化并且数据局部性差,而较差的局部性将导致频繁的全局数据访问,并显著增加内存访问时间,进而导致CPU上的样本批次采样时间比GPU上的模型计算时间更长,这导致基于CPU-GPU架构的流水线单元的工作负载不平衡,损害了流水线训练性能。并且,样本批次采样带来的另一个问题是邻域扩展引入了显著的计算开销。如:在训练L层图神经网络模型时,需要依次对目标顶点的1到L阶邻域进行采样,这导致时间复杂度随图神经网络深度呈指数增长。这种邻域爆炸问题涉及大量随机内存访问,导致数据局部性差,采样数据甚至可能超出GPU内存。
因此,如何提高数据访问的局部性,限制采样邻域的扩展范围,提高采样速度,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种图神经网络数据采样方法、装置、设备及存储介质,以提高数据访问的局部性,限制采样邻域的扩展范围,提高采样速度。
为实现上述目的,本发明提供一种图神经网络数据采样方法,包括:
通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;
在所述目标图数据集的每个聚类中确定训练顶点,根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点,并采集所述目标训练顶点的邻域顶点;
根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器。
其中,所述在所述目标图数据集的每个聚类中确定训练顶点,包括:
记录所述原图数据集中各顶点与所述目标图数据集中各顶点的对应关系,生成顶点映射表;
根据所述原图数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标图数据集的每个聚类中确定训练顶点。
其中,所述根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合,包括:
根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;
在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作和/或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111354483.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种同轴式电驱动桥的新能源电机
- 下一篇:一种拆除预制梁旧桥的施工方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置