[发明专利]利用分块GEMM的深度学习加速器架构在审
申请号: | 201910306082.5 | 申请日: | 2019-04-17 |
公开(公告)号: | CN110390390A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 王乃刚;崔正旭;K·高帕拉克里斯南;D·布兰德 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06F7/483;G06F7/544 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 刘玉洁 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及利用分块GEMM的深度学习加速器架构。计算矩阵被配置为包括一组计算单元,每个计算单元包括乘法器和累加器,乘法器和累加器中的每一个使用至少一个浮点单元(FPU)形成。累加器阵列被配置为包括一组外部累加器。操作计算矩阵以使用第一输入向量的第一块和第二输入向量的第一块来产生块点积。操作累加器阵列以使用块点积输出第一输入向量和第二输入向量的点积。 | ||
搜索关键词: | 输入向量 累加器 点积 矩阵 累加器阵列 计算单元 乘法器 加速器 分块 架构 浮点单元 配置 输出 学习 外部 申请 | ||
【主权项】:
1.一种方法,包括:将计算矩阵配置为包括一组计算单元,其中每个计算单元包括乘法器和累加器,所述乘法器和所述累加器中的每一个使用至少一个浮点单元FPU形成;将累加器阵列配置为包括一组外部累加器;操作所述计算矩阵以使用第一输入向量的第一块和第二输入向量的第一块来产生块点积;以及操作所述累加器阵列以使用所述块点积来输出所述第一输入向量和所述第二输入向量的点积。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910306082.5/,转载请声明来源钻瓜专利网。
- 上一篇:神经网络引擎
- 下一篇:一种基于三维卷积神经网络的映射装置及方法