[发明专利]片上架构、池化计算加速器阵列、单元以及控制方法有效
申请号: | 202110332489.2 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112905530B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 谭黎敏;桑迟;宋捷 | 申请(专利权)人: | 上海西井信息科技有限公司 |
主分类号: | G06F15/78 | 分类号: | G06F15/78;G06F15/80;G06N3/0464;G06F13/42 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 潘一诺 |
地址: | 200050 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 架构 计算 加速器 阵列 单元 以及 控制 方法 | ||
本发明提供一种片上架构、池化计算加速器阵列、单元以及控制方法,所述池化计算加速器由输入直接储存访问模块、池化计算模块以及输出直接储存访问模块构成,所述控制方法包括:所述输入直接储存访问模块按片内时钟周期,依次自片外储存器搬移一列特征数据,并输入至所述池化计算模块,所搬移的一列特征数据的行数依据片上计算资源的并行算力确定;所述池化计算模块按所述片内时钟周期,依次对由输入直接储存访问模块搬移进入的一列特征数据进行池化计算,并将池化计算结果输出至所述输出直接储存访问模块;所述输出直接储存访问模块按所述片内时钟周期,依次将所述池化计算模块计算的池化计算结果,搬移至所述片外储存器。本发明实现池化加速。
技术领域
本发明涉及卷积神经网络领域,尤其涉及一种片上架构、池化计算加速器阵列、单元以及控制方法。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它主要包括卷积层(convolutional layer)和池化层(pooling layer)。卷积神经网络已广泛应用于图像分类、物体识别、目标追踪。
在卷积神经网络中,通常需要进行池化计算,然而如何优化池化计算,是卷积神经网络芯片领域所要解决的技术问题。
目前,申请公布号CN110322388A,专利名称为池化方法及装置、池化系统、计算机可读存储介质的专利中,提出的池化窗口,通过不断更新进入池化窗口的每列数据,实现不同窗口位置的池化计算。
该专利第28段指出:几种常见的池化计算硬件架构的不足,比如,如果使用CPU计算,由缓存清除等问题会导致数据等待时间过长;此外,如果使用GPU,会导致大量数据在GPU的片内缓存和DRAM(Dynamic Random Access Memory,即动态随机存取存储器)之间反复搬移,导致功耗较高。业内还存在一种从指令集出发而设计的通用深度学习算法计算架构,存在取指,译码等过程,加长了这种特定算子的计算时间,且片内架构不一定能按照最佳并行度计算去匹配DRAM带宽。这种非加速器类型的池化架构,与我方专利差异较大。
因此,该专利提出了一种针对池化计算而设计的专有架构,是一种专用的加速器,在面对不同计算算子的尺寸(kerel size)和步长(stride)的各搭配的多种场景时,有时一列输入数据需要分别被两个池化窗口覆盖计算。该专利的结构为了保持一致性的设计,在该种情况下从存储内取两次该列数据,然而,这种操作会导致两个池化窗口有重叠的场景下计算时间大增,且访问存储带来功耗增加和延迟。而必须加入的片内缓存才能让数据随时可以再取,这种设计导致片内SRAM的增加,带来片上面积,功耗的挑战。
该专利的第56段和第58段分别有如下描述:像素数据(0,2)、像素数据(1,2)、像素数据(2,2)是重复读取的像素数据;本发明实施例可以从外部逐列读取像素数据,以实现重复获取像素数据;从而可以在提升池化效率的基础上,兼顾池化窗口的多样性,扩展池化方法的适用范围。
上述说明,该专利面对被两个池化窗口重叠覆盖的某列数据时,存在从片外DRAM或片内SRAM(Static Random-Access Memory,SRAM,静态随机存取存储器)再次搬移该列数据的操作。如果从DRAM取出,则启动DMA(Direct Memory Access,直接存储器访问)存在时间开销,如果从SRAM取出,则需要增加片内SRAM缓存。不管从哪种存储取出,都会增加池化算子的计算时间。以最常用的尺寸为3x3,步长为2的算子为例,对于同一个通道,如果不重复取数,数据列被搬入的顺序是0,1,2,3,4,5,6,7,8…;如果重复取,数据列被搬入的顺序是0,1,2,2,3,4,4,5,6,6,7,8…可见偶数列都会被重复搬移一次,总的数据搬移量基本增加50%,相应的功耗也增加50%,如果再加上启动数次DMA的时间开销,整体计算时间将会增加超过50%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海西井信息科技有限公司,未经上海西井信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110332489.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图片处理方法、装置、电子设备和计算机存储介质
- 下一篇:多功能空气净化机