[发明专利]具有用于执行高效3维卷积的存储器布局的神经网络单元有效
申请号: | 201711019626.7 | 申请日: | 2017-10-27 |
公开(公告)号: | CN108133262B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | G·葛兰·亨利;金·C·霍克 | 申请(专利权)人: | 上海兆芯集成电路有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 201203 上海市张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种神经网络单元,将H×W×C输入与F个R×S×C滤波器进行卷积以生成F个Q×P输出。N个处理单元(PU)各自具有寄存器和多路复用寄存器,其中寄存器接收第二存储器的N个字行中的相应字,多路复用寄存器选择性地接收来自第一存储器的N个字行的相应字或从相邻的PU的多路复用寄存器旋转的字。H个第一存储器行保存相应2维输入行片的每一个通道中的B个字的输入块。R×S×C第二存储器保存B个字的滤波器块,每个滤波器块保存滤波器权重的P个副本。B是大于W的N的最小因数。PU块以列‑通道‑行顺序对输入块和滤波器块执行乘法‑累加运算;它们读取输入块的一行并在执行乘法‑累加运算期间围绕N个PU旋转所述行,使得每个PU块在读取另一行之前接收每一个输入块。 | ||
搜索关键词: | 具有 用于 执行 高效 卷积 存储器 布局 神经网络 单元 | ||
【主权项】:
一种神经网络单元(NNU),被配置为将H行乘以W列乘以C个通道的输入与每一个为R行乘以S列乘以C个通道的F个滤波器进行卷积,以生成每一个为Q行乘以P列的F个输出,所述神经网络单元包括:第一存储器,所述第一存储器被配置为保存逻辑地分为G个输入块的N个字的行,其中每个输入块为B个字;第二存储器,所述第二存储器被配置为保存逻辑地分为G个滤波器块的N个字的行,其中每个滤波器块为B个字;其中B是大于W的N的最小因数,及其中N至少为512;N个处理单元(PU)的阵列,其中所述阵列的每个PU具有:累加器;寄存器,所述寄存器被配置为接收来自所述第二存储器的行的N个字中的相应字;多路复用寄存器,所述多路复用寄存器被配置为选择性地接收来自所述第一存储器的行的N个字中的相应字或从逻辑上相邻的PU的多路复用寄存器旋转的字;及算术逻辑单元,所述算术逻辑单元耦合到所述累加器、寄存器和多路复用寄存器,其中所述N个PU被逻辑地分为G个PU块,每一PU块为B个PU;其中所述输入块被保存在所述第一存储器的H行中,其中所述第一存储器的所述H行的每行保存所述输入的H行中的对应行的相应的2维片,其中,所述相应的2维片被保存在所述G个输入块中的至少C个输入块中,其中所述至少C个输入块的每个输入块保存由所述C个通道中的相应通道指定的2维片的字的行;其中所述滤波器块被保存在所述第二存储器的R×S×C行中,其中所述第二存储器的所述R×S×C行的每行的G个滤波器块中的F个滤波器块中的每一个保存在对应的滤波器的相应行和相应列以及相应通道的F个滤波器中的对应滤波器的权重的P个副本;及其中为了将所述输入与所述滤波器进行卷积,所述G个PU块以列‑通道‑行顺序对所述输入块和滤波器块执行乘法‑累加运算,其中所述G个PU块从所述第一存储器读取所述至少C个输入块中的H行中的一行,并且在执行一部分乘法‑累加运算期间围绕所述N个PU旋转所述行,使得所述G个PU块中的F个中的每一个在从所述第一存储器读取所述H行中的另一行之前接收所述行的所述至少C个输入块中的每一输入块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海兆芯集成电路有限公司,未经上海兆芯集成电路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711019626.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于BP神经网络的汽车胶管芯轴质量评价方法
- 下一篇:神经网络单元