[发明专利]一种卷积神经网络并行化训练加速方法在审
申请号: | 201810037896.9 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108090565A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 洪启飞;阮爱武;史傲凯 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种卷积神经网络并行化训练加速方法,提出了mixed‑batch思想,应用于CPU与FPGA组成的整机系统,主要解决在大规模的卷积神经网络结构下,利用FPGA对一个batch的样本并行训练时,存在存储空间不足的问题,可应用于计算机视觉领域的图像识别,目标检测。上述方法包括以下步骤:1、在数据预处理阶段,将原始训练库的样本随机重排。2、在前馈计算阶段,数据以batch形式写入共享内存,基于OpenCL语言实现的卷积神经网络各个层内并行处理,在网络的首个全连接层随机读取前一层batch中的一个样本的数据,并计算该层的输出。3、在更新局部误差阶段,用首个全连接层的局部误差随机更新前一层batch中某个样本的局部误差,其余的各个层并行计算局部误差。 | ||
搜索关键词: | 局部误差 卷积神经网络 样本 并行化 连接层 计算机视觉领域 读取 存储空间不足 神经网络结构 数据预处理 并行处理 并行计算 并行训练 共享内存 目标检测 图像识别 整机系统 重排 更新 卷积 前馈 应用 写入 输出 语言 网络 | ||
【主权项】:
1.一种卷积神经网络并行化训练方法,其特征在于,包括以下步骤:1)基于FPGA(现场可编程门阵列)实现的卷积神经网络中各个层的并行处理,为模型结构参数和可训练参数创建CPU和FPGA都可以访问的共享内存,所述结构参数包括各级网络层的输出、局部误差,所述可训练参数包括各级卷积层的卷积核、所述各级卷积层的偏置向量、所述全连接层的权重矩阵和所述全连接层的偏置向量;2)根据待训练卷积神经网络中每个层的类型创建不同batch规模的特征图像的输出与局部误差内存空间;3)共享内存通过对齐的方式创建,使用DMA(直接存储器访问)的方式在主机和FPGA设备之间传输数据,整个训练过程,共享内存的数据在网络层之间不断计算并传递;4)前馈计算时,在全连接层随机读取上一层batch中的一个特征图像的数据,并记录其在batch中的序号,反向传播计算时,使用在序号对应的标签数据计算输出层误差;5)更新局部误差时,根据误差反向传播算法的链式计算法则,单个样本的网络层直接更新从输出层反向传播的局部误差,而最后一个batch规模的网络层使用后一层局部误差随机更新当前某一个样本的局部误差,之前batch规模的网络层依次并行更新相应的多个样本的局部误差;6)对于batch规模的卷积层,计算该batch的特征图像的平均梯度,并行更新卷积核参数,计算该batch的平均局部误差,并行更新偏置参数;7)对于单个样本的全连接层,计算单个特征图像的梯度,并行更新权重参数,计算单个特征图像的局部误差,并行更新偏置参数;8)当前batch更新完之后,再重新传输下一个batch的数据,直置到达预设的迭代次数或误差低于阈值后停止训练。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810037896.9/,转载请声明来源钻瓜专利网。