[发明专利]基于OpenCL标准的卷积神经网络加速方法有效

申请号：	201710543986.0	申请日：	2017-07-05
公开（公告）号：	CN107341127B	公开（公告）日：	2020-04-14
发明（设计）人：	王树龙;殷伟;刘而云;刘红侠;杜守刚	申请（专利权）人：	西安电子科技大学
主分类号：	G06F15/16	分类号：	G06F15/16;G06F9/30;G06N3/04
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;朱红星
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种基于OpenCL标准的卷积神经网络加速方法，主要解决现有CPU处理卷积神经网络效率低的问题。其实现步骤为：1.读入原始的三维图像数据，将其传递到GPU的全局内存中；2.读取权重和偏置数据到GPU的全局内存中；3.将GPU的全局内存原始图像数据读取到GPU的局部内存中；4.初始化参数，构造线性激活函数Leaky‑ReLU；5.计算卷积神经网络第十二层的图片数据；6.计算卷积神经网络第十五层的图片数据；7.计算卷积神经网络第十八层的图片数据，并将该将图片数据存入GPU，再传回到主机内存中，给出运算时间。本发明提高了卷积神经网络运算速度，可用于计算机视觉的物体检测。
搜索关键词：	基于 opencl 标准卷积神经网络加速方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于OpenCL标准的卷积神经网络加速方法，包括：1)将原始的三维图像数据读入到主机内存中，经过边缘扩展处理后，再将图像数据传递到GPU的全局内存中；2)将训练得到的用于和图片数据卷积的权重和偏置数据从文本文件读入到主机内存中，再将权重和偏置数据传递到GPU的全局内存中；3)将GPU的全局内存原始图片数据分块读入到GPU的局部内存中；4)初始化卷积核尺寸为k＝3*3，卷积层步长s＝1，降采样层尺寸p＝2*2，降采样层步长d＝2，图片边缘扩展尺寸z＝1；5)构造含有阈值L的线性激活函数Leaky‑ReLU模型：f(x)=L*x,x<0x,x≥0,]]>其中，L为线性激活函数Leaky‑ReLU模型的阈值，取值为L＝0.1，x为大小1*1的图片数据；6)计算卷积神经网络第十二层的图片数据：将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算，并加上偏置数据进行激活函数Leaky‑ReLU运算，再进行降采样处理，得到卷积神经网络第一层的图片数据，再依次进行卷积运算、激活函数Leaky‑ReLU运算和降采样运算共六次，得到卷积神经网络第十二层的图片数据；7)计算卷积神经网络第十五层的图片数据：将由步骤6)得到的卷积神经网络第十二层的图片数据与卷积神经网络第十三层的权重数据进行卷积运算，得到卷积神经网络第十三层的图片数据，再依次经过两次卷积运算和激活函数Leaky‑ReLU运算共二次，得到卷积神经网络第十五层的图片数据；8)计算卷积神经网络第十八层的图片数据：8a)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据，并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加，再加上偏置数据，得出卷积神经网络第十六层的图片数据；8b)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加，并加上偏置数据，再经过激活函数Leaky‑ReLU运算后输出卷积神经网络第十七层的图片数据；8c)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加，并加上偏置数据，得出卷积神经网络第十八层的图片数据，即最终的计算结果，将该计算结果传回GPU全局内存；9)将GPU的全局内存中的计算结果再传回到主机内存中，得出识别结果和运算时间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710543986.0/，转载请声明来源钻瓜专利网。

上一篇：数据传输方法及系统以及USB控制器
下一篇：表单管理方法、装置、介质和计算设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于OpenCL标准的卷积神经网络加速方法有效

专利文献下载