[发明专利]一种粗粒度可重构的卷积神经网络加速器及系统有效
申请号: | 201710104029.8 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106951961B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 袁哲;刘勇攀;杨华中;岳金山;李金阳 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06T1/20;G06T1/60 |
代理公司: | 11002 北京路浩知识产权代理有限公司 | 代理人: | 汤财宝<国际申请>=<国际公布>=<进入 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 粒度 可重构 卷积 神经网络 加速器 系统 | ||
本发明提供一种粗粒度可重构的卷积神经网络加速器及系统,所述加速器包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述多个处理单元簇的子加法单元分别连接到一母加法单元;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。本发明采用粗粒度可重配的方式,通过SRAM或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同大小的网络和卷积核,同时大量减少重新配置的开销。
技术领域
本发明涉及高能效硬件加速器设计技术领域,更具体地,涉及一种粗粒度可重构的卷积神经网络加速器及系统。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络已经成为在图像识别、语音识别等领域最常用的算法,这一类方法需要非常多的计算量,需要设计专用的加速器。在可移动设备中也有很好的应用前景。但由于可移动设备资源受限,目前在GPU和FPGA(Field Programmable Gate Array,现场可编程门阵列)平台上设计的加速器很难在这些要求低功耗、资源受限的平台上使用。
由于卷积神经网络具有多种大小的网络结构和卷积核,专用的卷积网络加速器应该高效的支持这些不同大小的网络以及卷积核。传统的加速器为了支持卷积网络的多样性通常可以被分为两大类;第一大类是指令式加速器,把不同的卷积核计算操作拆解成一条条指令,在同一时刻取出正确的权重数据与图像数据,这种方法需要大量片上带宽和片上存储,在处理小网络是比较高效,但处理大网络时权重数据不可能全部存储在片上,所以能量效率下降严重;第二大类采用细粒度可重构电路的方式来支持不同大小的网络和卷积核,例如采用重构片上网络的方式,给每个处理单元设置一个地址,每次发送数据到对应地址,这种方式虽然在处理不同卷积神经网络时比指令式加速器更加高效,但细粒度重构电路带来了很多额外的能量与重配置开销。
在大规模计算领域中,可重构系统是目前体系结构的一个研究热点,它将通用处理器的灵活性和ASIC(Application Specific Integrated Circuits,专用集成电路)的高效性很好地结合起来,是面向大规模计算中比较理想的解决方案。传统DSP(DigitalSignal Processing,数字信号处理)具有运算速度低、硬件结构不可重构、开发升级周期长和不可移植等缺点,在面向大规模计算时,这种缺点就更加明显。ASIC在性能、面积和功耗等方面具有较大优势,但多变的应用需求和快速增长的复杂度使得ASIC的设计和验证难度大,开发周期长,很难满足产品快速应用的要求。在可编程逻辑器件中,虽然Xilinx公司的Virtex-6系列FPGA利用600MHz的DSP48E1slice实现了超过1000GMACS(1×1012次乘累加运算/秒)的性能,但在面向大规模计算时,需要配置的电路规模过大,综合和配置时间过长,且实际工作频率不高,难以保持高性能的同时,追求灵活性和低功耗的目标。
因此,急需设计一种低功耗高能效的专用加速器架构来满足低功耗的可移动设备的使用。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的粗粒度可重构的卷积神经网络加速器及系统,采用粗粒度可重配的方式,通过SRAM(Static Random AccessMemory,即静态随机存取存储器)或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同太小的网络和卷积核,同时大量减少重新配置的开销。
根据本发明的一个方面,提供一种粗粒度可重构的卷积神经网络加速器,包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述多个处理单元簇的子加法单元分别连接到一母加法单元;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710104029.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高炉冶炼钢包自动烘烤装置
- 下一篇:一种铸铜中间包砌筑模板结构