[发明专利]一种用于神经网络张量处理器的4D计算装置有效
申请号: | 202110955122.6 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113642713B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 罗闳訚;何日辉;周志新 | 申请(专利权)人: | 厦门壹普智慧科技有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/065 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361021 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 神经网络 张量 处理器 计算 装置 | ||
本发明公开了一种神经网络张量处理器的4D计算装置,包括片上存储单元、dat数据流处理单元、wt数据流处理单元、两个MAC计算阵列单元和两个累加单元;其中,片上存储单元用于保存4D计算装置计算所需的dat数据和wt数据;dat数据流处理单元用于接收来自所述片上存储单元的dat数据,并根据不同的计算模式整合该dat数据,最终形成后续计算所需的dat数据,并发送给两个MAC计算阵列单元;wt数据流处理单元用于接收来自所述片上存储单元的wt数据,并根据不同的计算模式整合该wt数据,最终形成后续计算所需的wt数据,并发送给两个MAC计算阵列单元;累加单元用于实现MAC计算阵列单元计算结果的累加操作,并将累加后的计算结果进行缓存、输出,用于后续计算。
技术领域
本发明涉及神经网络张量处理器技术领域,尤其涉及一种用于神经网络张量处理器的4D计算装置。
背景技术
传统处理器(包括CPU、GPU以及DSP等)采用基于指令的计算方法,其数据计算受指令的限制,通常具有较低的计算密度。也即在一定的数据位宽下(例如512位的数据位宽),通常需要大量的电路结构用于处理指令。最低效率如CPU,一条指令通常仅带一个32位或64位数据。
对于高性能计算的GPU,其通过多线程技术改善了计算密度,也即通过数量众多的计算线程来为计算资源提供数据,但其本质仍然是指令集架构,通过多线程可以提高计算密度,但仍然无法避免由指令相关电路带来的计算冗余。
发明内容
本发明的目的在于提供一种用于神经网络张量处理器的4D计算装置,采用非指令集架构,无需传统处理器中指令相关电路结构,从而解决传统处理器中由指令带来的计算密度较低的问题。
为实现上述目的,本发明提供了一种如下技术方案:
一种神经网络张量处理器的4D计算装置,包括片上存储单元、dat数据流处理单元、wt数据流处理单元、第一MAC计算阵列单元、第二MAC计算阵列单元和两个累加单元;
所述片上存储单元,用于保存4D计算装置计算所需的dat数据和wt数据;
所述dat数据流处理单元,用于接收来自所述片上存储单元的dat数据,并根据不同的计算模式整合该dat数据,最终形成后续计算所需的dat数据,并发送给所述第一MAC计算阵列单元和所述第二MAC计算阵列单元;
所述wt数据流处理单元用于接收来自所述片上存储单元的wt数据,并根据不同的计算模式整合该wt数据,最终形成后续计算所需的wt数据,并发送给所述第一MAC计算阵列单元和所述第二MAC计算阵列单元;
两所述累加单元分别用于实现第一MAC计算阵列单元、第二MAC计算阵列单元计算结果的累加操作,并将累加后的计算结果进行缓存、输出,用于后续计算。
进一步地,所述片上存储单元包括两个写接口、两个读接口和多个存储块,两个写接口分别用于写dat数据和wt数据,其中,dat数据的写地址、写数据和写使能信号由外部模块产生,wt数据的写地址、写数据和写使能信号由外部模块产生;所述读接口的位宽是M比特,所述写接口的位宽是M比特的X分之一;每个存储块包含X个宽度是M/X且深度为N的SRAM;每个存储块的容量是M*N比特,片上存储单元包含存储块的数量为Y,片上存储单元总的存储容量为M*N*X*Y比特;所述读接口的读地址由外部模块产生,该读接口的读数据分别发送给dat数据流处理单元和wt数据流处理单元。
进一步地,所述M等于1024,所述X等于2;所述N等于512。
进一步地,所述存储块的数量Y为5或9。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门壹普智慧科技有限公司,未经厦门壹普智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110955122.6/2.html,转载请声明来源钻瓜专利网。