[发明专利]适用于深度学习硬件加速器的可配置精度的卷积硬件结构有效
| 申请号: | 201910310573.7 | 申请日: | 2019-04-17 |
| 公开(公告)号: | CN110458277B | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 沈松剑;沈沙;李毅 | 申请(专利权)人: | 上海酷芯微电子有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 200082 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 适用于 深度 学习 硬件 加速器 配置 精度 卷积 结构 | ||
1.一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换;
所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列;
所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元;
所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出。
2.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述无符号乘法单元的实现方式包括:Array乘法器或基于华莱士树的乘法器。
3.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述无符号乘法单元的最小精度为4bit。
4.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit。
5.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
6.一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换;
所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列;
所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元;
所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出;
所述无符号乘法单元包括:Array乘法器或基于华莱士树的乘法器;
所述无符号乘法单元的最小精度为4bit;
所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海酷芯微电子有限公司,未经上海酷芯微电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910310573.7/1.html,转载请声明来源钻瓜专利网。





