[发明专利]一种基于指令队列的分布式深度神经网络性能建模方法有效
申请号: | 201811592739.0 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109657794B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李陈圣;秦晓卫;裴梓茜;李晓敏;杨渡佳 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N3/10 | 分类号: | G06N3/10;G06N3/08;G06N3/063 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 汪祥虬 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指令 队列 分布式 深度 神经网络 性能 建模 方法 | ||
本发明公开了一种基于指令队列的分布式深度神经网络性能建模方法,特征是根据硬件性能参数、神经网络结构、底层计算架构、数据传输协议、链路带宽特点、服务器GPU拓扑结构,对深度神经网络进行分层映射拆分、分段计算,然后利用指令队列对训练一次迭代耗时进行估计,同时输出各硬件间的数据交互情况。由于本发明基于指令队列的分布式深度神经网络性能建模方法同时考虑了软硬件特征,使用了指令级的队列模型进行耗时分析,从而实现了对深度神经网络训练的一次迭代耗时估计和对各硬件数据交互过程的分析,适用于不同的硬件环境(不同的服务器、不同种类的GPU、不同块数的GPU)和不同的神经网络。
技术领域
本发明属于基于特定计算模型的性能建模技术领域,具体涉及对在单块或多块图形处理器(GPU)上训练的深度神经网络性能的建模方法。
背景技术
中央处理器(Central Processing Unit,CPU)是一台计算机的运算核心和控制核心,图形处理器(Graphics Processing Unit,GPU)是一种图像运算工作的微处理器。相比CPU,GPU具有更多的计算单元,自GPU通用计算技术发展以来,GPU已广泛应用于大计算量的任务,尤其是在深度学习领域。
深度神经网络(Deep Neural Network,DNN)是指具有多个隐藏层的人工神经网络(Artificial Neutral Network,ANN),其概念由多伦多大学的杰弗里·辛顿研究组于2006年提出。2012年会议NIPS(Advances in neural information processing systems)收录的文章“Imagenet classification with deep convolutional neural networks[C]”成功将深度神经网络引入计算机视觉领域,引发了深度学习的热潮。时至2018年,深度学习领域相关的研究已经有了数倍的增长,成功应用于计算机视觉、模式识别、自然语言处理等多个领域。在深度神经网络如此广泛应用的背景下,一种通用的高准确度的针对GPU上训练的深度神经网络性能建模方法是十分有意义的。目前针对GPU上训练的深度神经网络的性能建模方法主要通过实验收集底层数据来进行:例如,IEEE在2018年收录的文章“Performance modeling and evaluation of distributed deep learning frameworkson gpus[C]”中,针对三种不同的深度学习框架,构建了卷积神经网络一次迭代的时延模型,但是其模型构建依赖于实验结果,而且它也无法给出神经网络训练一次迭代的耗时估计;也有利用理论计算估计性能的做法:例如,会议ICLR(In Proceedings of theInternational Conference on Learning Representations)于2017年收录的文章“Paleo:A Performance Model for Deep Neural Networks[C]”针对不同的网络和分布式硬件环境构建了深度神经网络性能模型,将其映射到特定的软件、硬件和通信策略空间,用于探索深度学习系统的可扩展性,不过它的误差只能控制在30%以内。
发明内容
本发明的目的是提出一种基于指令队列的分布式深度神经网络性能建模方法,通过软硬件关键特征参数提取、单GPU性能建模、多GPU性能建模三大过程,实现对当前硬件环境和软件配置下该种结构的深度神经网络训练时一次迭代耗时的估计与各硬件数据交互的分析。
本发明基于指令队列的分布式深度神经网络性能建模方法,针对GPU上训练的深度神经网络一次迭代耗时建模,其特征在于:根据硬件性能参数、神经网络结构、底层计算架构(Compute Unified Device Architecture,CUDA)、数据传输协议、链路带宽特点、服务器GPU拓扑结构,对深度神经网络进行分层映射拆分、分段计算,然后利用指令队列对训练一次迭代耗时进行估计,同时输出各硬件间的数据交互情况;具体操作步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811592739.0/2.html,转载请声明来源钻瓜专利网。