[发明专利]一种类Alexnet网络的模型训练方法和装置在审
申请号: | 201610201731.1 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107292385A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 王思宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种类 alexnet 网络 模型 训练 方法 装置 | ||
技术领域
本申请涉及信息技术领域,特别是涉及一种类Alexnet网络的模型训练方法和一种类Alexnet网络的模型训练装置。
背景技术
人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。近年来,深度学习(Deep Learning)直接尝试解决抽象认知的难题,并取得了突破性的进展。深度学习引爆的这场革命,将人工智能带上了一个新的台阶,不仅学术意义巨大,而且实用性很强。
深度学习的动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。通常,深度学习是通过建立相应的网络模型,采用模型训练的方式来进行的。根据不同的学习框架建立的学习模型很是不同,例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,其中,Alexnet网络又是开发者经常使用的一种经典的卷积神经网络。
如图1所示,是一种Alexnet网络的结构示例图。在Alexnet网络中,比较重要的两种层类型为卷积层Convolution(即图1中Convolution1至pool5部分)和全连接层Inner Product(即图1中Inner Product6至loss层部分)。在Alexnet网络中进行一次模型训练的过程可以描述如下:
(1)先将数据从Data层正向传播到Top层,此过程途中先经过卷积层部分,再经过全连接层部分;
(2)在传播到Top层后计算损失;
(3)将损失从Top层依次反向传播到Data层,并在传播过程中计算梯 度值,最后完成连接权重的更新,这一过程途中先经过全连接层部分,再经过卷积层部分。
在Alexnet网络中,无论是正向传播过程还是反向传播过程,卷积层部分都会拥有非常大的计算量,几乎占了整个网络的计算时间80%以上,但卷积层需要更新的参数量却非常小,只占整个网络参数的10%;而全连接层部分的情况则与卷积层完全相反,全连接层部分拥有整个网络90%的待更新参数,但计算时间却只占了整个网络的20%。
在单机多卡(即一台装有多个图形处理单元GPU的计算机)环境下,在进行模型训练时,为了能够得到无损的训练结果,必须在每个GPU上都保持一份全量的模型,并在两个模型上同时进行训练。以两卡(两个图形处理单元GPU)为例,可以将两张卡分为主卡和从卡,如图2所示,是已有技术中主卡与从卡的工作原理图。在每一轮训练结束后,需要将从卡上的模型计算出来的梯度值发送到主卡模型上,并由主卡在计算梯度值的平均值后更新参数,最后将主卡上最新的模型广播发送到从卡上,才能继续进行下一次的训练。已有技术中一般是先对所有层计算出全部的梯度值之后,将得到的所有层的梯度值发送到主卡上求和平均并更新模型,即必须先进行全部的计算之后才能进行通信,在时间上,计算和通信具有严格的先后顺序。
因此,按照已有技术首先计算出全连接层的梯度值,并在将全连接层的梯度值汇总到主卡上之后,再计算卷积层的梯度值,则整个过程所耗费的时间将会非常多,严重影响模型训练的运行效率。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种类Alexnet网络的模型训练方法和相应的一种类Alexnet网络的模型训练装置。
为了解决上述问题,本申请公开了一种类Alexnet网络的模型训练方法,包括:
采用第一图形处理单元GPU计算在类Alexnet网络下的第一梯度值和第 二梯度值;
接收第二图形处理单元GPU发送的在所述类Alexnet网络下的第三梯度值;
依据所述第一梯度值和第三梯度值计算所述类Alexnet网络的第一模型参数;
接收所述第二图形处理单元GPU发送的在所述类Alexnet网络下的第四梯度值;
依据所述第二梯度值和第四梯度值计算所述类Alexnet网络的第二模型参数;
采用所述第一模型参数和第二模型参数训练所述类Alexnet网络的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610201731.1/2.html,转载请声明来源钻瓜专利网。