[发明专利]一种加速分布式深度神经网络的训练方法及装置在审
申请号: | 201810646003.0 | 申请日: | 2018-06-21 |
公开(公告)号: | CN108876702A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 廖建新;王敬宇;王晶;戚琦;徐捷 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/10;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 分布式集群 并行训练 样本集 子网络 预设 架构 神经网络模型 数据本地化 训练样本集 调度 实时调整 网络延迟 减小 网络 进度 | ||
本发明实施例提供了一种加速分布式深度神经网络的训练方法及装置,所述方法包括:基于并行训练,将深度神经网络的训练设计成为分布式训练的模式,待训练的深度神经网络模型划分为多个子网络;训练样本集划分为多个子样本集;基于分布式集群架构及预设的调度方法,利用多个子样本集对深度神经网络进行训练,每个训练由多个子网络同时进行,进而完成深度神经网络的分布式训练;由于基于分布式集群架构及预设的调度方法可以通过数据本地化减小网络延迟对分布式训练的子网络的影响,并实时调整训练策略,同步并行训练的子网络的进度,进而可以缩短分布式深度神经网络的完成训练的时间,加速深度神经网络的训练。
技术领域
本发明涉及深度神经网络训练技术领域,特别是涉及一种加速分布式深度神经网络的训练方法及装置。
背景技术
深度神经网络已成功应用于很多领域,包括图像识别、纹理分类、语音识别等领域。近年来,深度神经网络由于采用更深的网络架构和更大的训练样本集来进行训练,所以在性能上有了显著的提升。但是在训练过程中,也产生了一个严重的问题,随着网络参数和训练样本的爆发式增长,导致深度神经网络训练时间很长。
为了解决这个问题,研究人员提出了对深度神经网络进行并行训练的方法,主要是利用多个图形处理器内核来实现并行训练,从而减少训练时间。目前样本并行训练和模型并行训练是两个主要的并行训练的类型。其中,样本并行训练是将训练样本集分成许多子集,进而来并行训练相同的深度神经网络。模型并行训练是将深度神经网络切分成多个分层网络,进而在不同图形处理器进行训练。
以上两种方式都通过减少单个图形处理器训练的工作量,增加多个图形处理器并行训练来减少深度神经网络的训练时间。但是多个图形处理器并不一定同处于同一个物理设备,对于多个图形处理器组成的分布式集群,如何实现大幅度减少网络延迟对于深度神经网络的分布式训练时间的影响成为当前深度神经网络技术领域亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种加速分布式深度神经网络的训练方法及装置,以缩短深度神经网络的训练时间,提高深度神经网络的训练效率。具体技术方案如下:
第一方面,本发明实施例提供了一种加速分布式深度神经网络的训练方法,所述方法包括:
将待训练的深度神经网络划分为多个子网络;
将预先获取的训练样本集划分为多个子样本集;
基于分布式集群架构及预设的调度方法,利用所述多个子样本集对所述待训练的深度神经网络进行分布式训练,每个子网络的训练加速通过数据本地化减小网络延迟的影响实现,其中,所述多个子网络同时进行训练,并行的子网络之间同步训练进度,实现分布式深度神经网络的加速训练,所述数据本地化是指任务执行在预设云资源节点,使得数据传输时间最短。
可选的,所述分布式集群架构包括多个云资源节点,所述多个云资源节点运行多个应用,每个应用包括多个任务,其中,所述任务用于根据输入的数据集训练子网络,所述数据集为子样本集或训练前一阶段的子网络输出的阶段性训练结果;
所述基于分布式集群架构及预设的调度方法,利用所述多个子样本集对所述待训练的深度神经网络进行分布式训练的步骤,包括:
根据公式将所述多个任务调度至所述多个云资源节点,加速每个子网络的训练,对所述多个子网络的训练进度进行同步,以加速整个待训练的深度神经网络的分布式训练;
其中,c为所述分布式深度神经网络当前训练所剩的完成时间,p为应用编号,A为应用的数量,ap为编号为p的应用的剩余运行时间和数据传输时间的总和。
可选的,所述编号为p的应用的剩余运行时间和数据传输时间的总和的计算方式,包括:
根据如下公式计算所述编号为p的应用的剩余运行时间和数据传输时间的总和:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810646003.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于游程的单次扫描连通域标记方法及其硬件结构
- 下一篇:数据存储方法