[发明专利]使用列折叠和挤压的稀疏矩阵的矩阵乘法加速在审

专利信息
申请号: 201910429098.5 申请日: 2019-05-22
公开(公告)号: CN110633793A 公开(公告)日: 2019-12-31
发明(设计)人: O·阿齐滋;G·布杜赫;T·沃纳;A·杨;M·罗特辛;C·科伦;E·努维塔蒂 申请(专利权)人: 英特尔公司
主分类号: G06N3/063 分类号: G06N3/063;G06N3/08
代理公司: 31100 上海专利商标事务所有限公司 代理人: 何焜;黄嵩泉
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 所公开的实施例涉及使用列折叠和挤压的稀疏矩阵乘法(SMM)加速。在一个示例中,处理器响应于具有用于指定第一矩阵、第二矩阵和输出矩阵的位置的字段的SMM指令而使用执行电路系统通过利用尚待处理的非零元素替换一个或多个零值元素来紧缩所述第二矩阵,所述第二矩阵是稀疏矩阵,被替换的元素中的每个元素进一步包括用于标识其在所述第二矩阵内的逻辑位置的字段,并且所述执行电路系统进一步用于:针对所指定的第一矩阵的行M和列K处的每个非零元素,生成所述元素与所紧缩的第二矩阵的行K列N处的每个相应非零元素的乘积,并且将每个所生成的乘积与所指定输出矩阵的行M和列N处的相应元素的前一值进行累加。
搜索关键词: 矩阵 非零元素 电路系统 输出矩阵 稀疏矩阵 字段 替换 紧缩 逻辑位置 乘法 累加 折叠 处理器 挤压 指令 响应
【主权项】:
1.一种用于执行稀疏矩阵乘法(SMM)指令的处理器,所述处理器包括:/n取出和解码电路系统,用于取出具有用于指定第一矩阵、第二矩阵和输出矩阵的位置的字段的SMM指令并对其进行解码,所述第二矩阵是稀疏矩阵,所述取出电路系统进一步用于将所述第一矩阵的元素和所述第二矩阵的元素从其位置取出并存储到寄存器堆中;以及/n执行电路系统,响应于经解码的SMM指令而通过利用尚待处理的非零元素替换一个或多个零值元素来紧缩存储在所述寄存器堆中的所述第二矩阵,被替换的元素中的每个元素进一步包括用于标识其在所述第二矩阵内的逻辑位置的字段,并且所述执行电路系统进一步用于:针对所述第一矩阵的行M和列K处的每个非零元素,生成所述非零元素与所紧缩的第二矩阵的行K和列N处的每个相应非零元素的乘积,并且将每个所生成的乘积与所述输出矩阵的行M和列N处的相应元素的前一值进行累加。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910429098.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于线性分段的激活函数的硬件实现电路和方法-201911037850.8
  • 李丽;张衡;傅玉祥;何书专 - 南京宁麒智能计算芯片研究院有限公司
  • 2019-10-29 - 2020-02-14 - G06N3/063
  • 本发明公开了一种基于线性分段的激活函数的硬件实现电路,包括控制器模块、地址产生模块、数据分发模块、初始化模块、激活函数模块;控制器模块用于配置定点位宽和定点整数位宽并送入到地址产生模块和数据分发模块,地址产生模块找到对应数据地址通过数据分发模块读取数据送入到初始化模块,然后初始化模块将数据送入到计算阵列中的激活函数模块,最后写入到SRAM相应位置;初始化模块根据神经网络应用场景和深度的不同改变定点整数位宽和定点小数位宽,并以此对线性分段的斜率和截距进行定点化表示,重构查找表。本发明同时提供一种方法,根据任意定点整数位宽来重新定点化表示斜率与截距,重构查找表,有效地节约运算资源、提高计算速度。
  • 具有差分二进制非易失性存储器单元结构的可配置精密神经网络-201910638410.1
  • W·H·崔;P·F·邱;马雯;M·卢克博登 - 闪迪技术有限公司
  • 2019-07-16 - 2020-02-11 - G06N3/063
  • 本公开一般涉及具有差分二进制非易失性存储器单元结构的可配置精密神经网络。本发明公开了非易失性存储器阵列架构用于实现神经网络(BNN)的用途,其允许在存储器阵列内执行矩阵乘法和累加。用于存储神经网络的权重的单位突触由两个单独存储器单元的差分存储器单元形成,诸如具有可编程电阻的存储器单元,每个存储器单元连接在字线对中的对应一者与共享位线之间。将输入作为具有电压值的模式施加在连接到单位突触的字线对上,以通过确定共享位线上的电压电平来执行输入与权重的乘法。此类乘法的结果由感测放大器来确定,并且该结果由求和电路进行累加。通过针对权重使用多个差分存储器单元,所述方法可以从二进制权重扩展到多位权重值。
  • 神经网络处理装置、控制方法以及计算系统-201880038043.5
  • 杨康;李鹏;韩峰;谷骞 - 深圳市大疆创新科技有限公司
  • 2018-11-28 - 2020-02-11 - G06N3/063
  • 提供一种神经网络处理装置、控制方法以及计算系统。该神经网络处理装置包括:计算电路;控制电路,根据一条目标指令,控制计算电路执行神经网络的至少两个层对应的计算。采用“一条”目标指令实现神经网络的至少两层的计算,使得保证神经网络处理装置灵活性的前提下,减少了控制信号的占比,节省了神经网络处理装置的功耗和面积,从而能够提高神经网络处理装置的性能。
  • 放电速率依赖可塑性结构及实现方法-201910925752.1
  • 张丹妮;张烨;易军凯 - 北京信息科技大学
  • 2019-09-27 - 2020-02-07 - G06N3/063
  • 本发明提供了一种放电速率依赖可塑性结构及实现方法,包括突触前神经元PRE、突触后神经元POST和SRDP电子突触,所述SRDP电子突触包括四个MOS晶体管和一个双极开关RRAM;其中四个所述MOS晶体管用符号分别表示为M1、M2、M3、M4,所述M1和M2为一组构成M1/M2分支、所述M3和M4为一组构成M3/M4分支,所述M1/M2与M3/M4并联;所述M1/M2、M3/M4、突触后神经元POST及双极开关RRAM相互串联。本发明能够实现放电时间的可塑性;可以在神经网络层面上演示了无监督学习,证明支持了匹配人脑学习能力的混合CMOS/RRAM集成电路的可行性。
  • 神经网络交叉开关堆叠-201880038425.8
  • P-L.坎廷;O.特曼 - 谷歌有限责任公司
  • 2018-05-21 - 2020-02-07 - G06N3/063
  • 描述了一种用于执行神经网络的神经网络计算的电路。该电路包括多个神经网络层,每个神经网络层包括交叉开关阵列。多个交叉开关阵列以堆叠配置形成在公共基板中。每个交叉开关阵列包括一组交叉点设备。每个交叉点设备的相应的电特性是可调节的,以表示为每个相应的交叉点设备存储的权重值。处理单元被配置为通过向每个交叉点设备预加载调谐信号来调节每个交叉点设备的相应的电特性。每个交叉点设备的调谐信号的值是每个相应交叉点设备表示的权重值的函数。
  • 数据存储的装置、方法、处理器和可移动设备-201880040193.X
  • 韩峰;王耀杰;高明明 - 深圳市大疆创新科技有限公司
  • 2018-10-08 - 2020-02-07 - G06N3/063
  • 一种数据存储的装置(600)、方法、处理器和可移动设备。该装置(600)包括:拼装模块(610),用于获取乘累加单元乘累加后的计算结果,所述计算结果包括至少一个输出特征图的数据单元,将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组;存储模块(620),用于将所述数据单元组存储到存储器中,其中,所述预定大小为所述存储器中存储单元的大小。能够提高数据存储的效率。
  • 在NAND存储器阵列中实现具有三值输入和二值权重的神经网络-201910480010.2
  • T·T·黄;W·H·崔;M·卢克博登 - 闪迪技术有限公司
  • 2019-06-04 - 2020-02-04 - G06N3/063
  • 本发明题为“在NAND存储器阵列中实现具有三值输入和二值权重的神经网络”。本发明提供了使用NAND阵列架构来实现二值神经网络(BNN)允许在存储器阵列内执行矩阵乘法和累加。用于存储BNN的权重的单位突触存储在一对串联连接的存储器单元中。在连接到该单位突触的一对字线上应用二值输入作为电压值的模式,以通过确定该单位突触是否导通来执行该输入与该权重的乘法。此类乘法的结果由读出放大器确定,其中结果由计数器累加。该布置可以扩展到三值输入以通过添加电路来检测0输入值并相应地调整累加计数来实现三值‑二值网络(TBN)。
  • 一种神经网络比特量化方法和系统-201910820791.5
  • 崔鑫 - 云知声智能科技股份有限公司
  • 2019-08-28 - 2020-02-04 - G06N3/063
  • 本发明提供了一种神经网络比特量化方法和系统,该方法和系统通过对神经网络模型中每一层的输入信息进行分类和量化处理,以实现对该神经网络模型的递进式累积压缩,从而更进一步地减少该神经网络模型在运算过程中的中间数据和最终结果数据的存储空间;此外,该方法和系统还通过对神经网络模型的每一层的输出信息进行排序处理,这样能够针对每一层的输出信息各自的输出通道特性选择合适的计算方式,从而使得该神经网络模型在硬件上运行时能够获得最优的计算效率和降低硬件运行所需的功耗。
  • 一种应用于卷积神经网络的可配置卷积加速器-201910885769.9
  • 雷鑑铭;徐明;毛奕陶 - 华中科技大学
  • 2019-09-19 - 2020-02-04 - G06N3/063
  • 本发明公开了一种应用于卷积神经网络的可配置卷积加速器,包括传输时钟域模块和主时钟域模块,主时钟域模块包括计算单元阵列、全局缓存和片上网络;全局缓存用于存储第一中间结果、第二中间结果、输入特征图和卷积核权重,并传递输出特征图;片上网络用于控制计算单元阵列的结构、卷积核与输入特征图的复用,并控制数据传输的位置和方向;计算用于对获取的输入特征图、卷积核权重和第一中间结果进行卷积计算,获取第二中间结果和输出特征图。本发明通过片上网络控制计算单元阵列的结构,并实现计算单元对输入特征图和卷积核的复用及对第二中间结果的累加,显著减少了输入特征图和卷积核数据的片外存储访问,进而减少了可配置加速器的功耗。
  • 基于FPGA的可变形卷积网络运算方法、装置和系统-201910988793.5
  • 井怡;高鹏;何峻 - 中国科学院上海高等研究院;上海市信息技术研究中心
  • 2019-10-17 - 2020-01-31 - G06N3/063
  • 本申请提供的一种基于FPGA的可变形卷积网络运算方法、装置和系统,通过获取图像输入数据,经缓存处理后得到串行数据;将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段;依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值,按顺序依次对各所述待卷积片段进行卷积运算,以得到卷积输出结果。本申请通过该可变形卷积算法,实现任意卷积模型的运算,可有效提高卷积模块的图像检测精度,同时借用FPGA平台得到更好的硬件加速效果。
  • 运算方法、装置及相关产品-201811634949.1
  • 不公告发明人 - 中科寒武纪科技股份有限公司
  • 2018-12-29 - 2020-01-31 - G06N3/063
  • 本公开涉及一种运算方法、装置及相关产品,所述产品包括控制模块,所述控制模块包括:指令缓存单元、指令处理单元和存储队列单元;所述指令缓存单元,用于存储所述人工神经网络运算关联的计算指令;所述指令处理单元,用于对所述计算指令解析得到多个运算指令;所述存储队列单元,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令。通过以上方法,本公开可以提高相关产品在进行神经网络模型的运算时的运算效率。
  • 乘法器、装置、神经网络芯片及电子设备-201921433488.1
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2019-08-30 - 2020-01-31 - G06N3/063
  • 本申请提供一种乘法器、装置、神经网络芯片及电子设备,所述乘法器包括:正则有符号数编码电路,部分积获取电路和修正累加电路;其中,所述正则有符号数编码电路的输出端与所述部分积获取电路输入端连接,所述部分积获取电路的输出端与所述修正累加电路的输入端连接,该乘法器能够通过正则有符号数编码电路对接收到的数据进行正则有符号数编码,得到的有效部分积的数目较少,从而降低了乘法器实现乘法运算的复杂性。
  • 乘法器、装置、芯片及电子设备-201921433489.6
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2019-08-30 - 2020-01-31 - G06N3/063
  • 本申请提供一种乘法器、芯片及电子设备,所述乘法器包括:正则有符号数编码电路,畸形华莱士树组电路和累加电路,所述正则有符号数编码电路的输出端与所述畸形华莱士树组电路的输入端连接,所述畸形华莱士树组电路的输出端与所述累加电路的输入端连接,该乘法器能够通过正则有符号数编码电路对接收到的数据进行正则有符号数编码,得到的有效部分积的数目较少,从而降低了乘法器实现乘法运算的复杂性。
  • 乘法器-201921434182.8
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2019-08-30 - 2020-01-31 - G06N3/063
  • 本申请提供一种乘法器,所述乘法器包括:改进正则有符号数编码电路、改进华莱士树组电路以及累加电路,所述改进正则有符号数编码电路的输出端与所述改进华莱士树组电路的输入端连接,所述改进华莱士树组电路的输出端与所述累加电路的输入端连接,该乘法器能够通过正则有符号数编码电路对接收到的数据进行正则有符号数编码,得到的有效部分积的数目较少,从而降低了乘法器实现乘法运算的复杂性。
  • 一种运算装置和运算方法-201810782174.6
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2018-07-17 - 2020-01-24 - G06N3/063
  • 本公开涉及一种运算装置和运算方法,其中所述运算装置包括:多个运算模块,该多个运算模块通过并行执行相应的运算子命令完成网络模型的运算操作;其中,所述运算模块包括:至少一个运算单元,其配置为利用第一运算子数据执行第一运算子命令;存储单元,其至少用于存储所述第一运算子数据,该第一运算子数据包括用于执行所述第一运算子命令的数据。本公开实施例能够降低用于数据访问的带宽需求,且成本低。
  • 基于加减计数器的人工神经网络-201911011426.6
  • 马卫东 - 马卫东
  • 2019-10-23 - 2020-01-24 - G06N3/063
  • 本发明公开了一种基于加减计数器的人工神经网络,将与门电路和二进加减计数器相结合,作为神经元,附加锁存器、异或门电路和控制单元。该神经网络具有多个神经元,异步输入和同步输入相结合,大幅减少了输入输出和神经元之间的连接线路;总线式结构使得线路简单,通用性强,易于扩展神经网络规模,采用成熟的计数器电路、与门电路、锁存器、异或门电路和CPU电路,易于电路集成;釆用简单的与门电路实现复杂的乘法运算,计数器异步输入实现复杂的加减法运算,计数器的借位/进位输出以及异或门的异或运算,实现阈值函数运算;锁存器连接网络输入和输出,具有自反馈和互反馈功能,实现自锁、互锁、计时、计数等复杂的神经网络功能。
  • 一种基于并行加速循环体的性能语义加速机制及其应用-201910964789.5
  • 李险峰;王元洵 - 北京大学深圳研究生院
  • 2019-10-11 - 2020-01-21 - G06N3/063
  • 本发明适用于加速机制技术改进领域,提供了一种基于并行加速循环体的性能语义加速机制,所述性能语义加速机制包括:S1、观察计算和数据密集型的ML算法查找出其共同模式;S2、将找出的共同模式抽象成与性能相关的程序行为构成性能语义;S3、对性能语义进行加速形成通用加速机制。该性能语义加速机制通过调用其库函数来编写的算法,并且代码将被编译为硬件API进行库调用。简化了程序员每次都需要队ML算法的架构,节省了时间,提高了效率。
  • 一种混合信号二进制CNN处理器-201820511079.8
  • 刘洪杰 - 深圳市九天睿芯科技有限公司
  • 2018-04-11 - 2020-01-21 - G06N3/063
  • 一种混合信号二进制CNN处理器,它包括神经元阵列单元、二进制温度译码单元、控制单元、输入图像单元、输出图像单元和存储单元,RGB图像通过二进制温度译码单元的输入端输入,二进制温度译码单元的输出端通过输入图像单元与神经元阵列单元的输入端相连接,神经元阵列单元的输出端与输出图像单元相连接,控制单元与神经元阵列单元相连接,控制指令通过控制单元的输入端输入,存储单元与神经元阵列单元相连接;通过二进制温度译码单元的Binary Net算法来完成工作,其权重和激活约束为+1/‑1,极大地简化了乘法运算(XNOR)并允许集成所有片上存储单元;执行中等复杂度的图像分类(CIFAR‑10中为86%),并采用近存储器计算来实现3.8μJ的分类能量,比TrueNorth提高40倍。
  • 数模混合神经元电路-201921055151.1
  • 满梦华;马贵蕾 - 中国人民解放军陆军工程大学
  • 2019-07-08 - 2020-01-21 - G06N3/063
  • 本实用新型公开了一种数模混合神经元电路,包括数字电路模块以及模拟电路模块,所述模拟电路模块包括可重构电容阵列、钠通道模块以及钾通道模块,所述可重构电容阵列的容值受控于所述数字电路模块;电源的输入端与所述可重构电容阵列的C+端连接,所述可重构电容阵列的C+端连接所述神经元电路的输出端,所述可重构电容阵列的C‑端接地;所述可重构电容阵列与泄放电阻R
  • 递归网络拓扑数模混合神经网络电路-201921055178.0
  • 满梦华;马贵蕾 - 中国人民解放军陆军工程大学
  • 2019-07-08 - 2020-01-21 - G06N3/063
  • 本实用新型公开了一种递归网络拓扑数模混合神经网络电路,包括呈圆周状排列的n个神经节点、主控制器模块、n个寄存器模块以及n个多路复用器模块,所述每个神经节点都有一个与之对应的多路复用器模块,每个多路复用器模块都有一个与之对应的寄存器,所述主控制器模块的输出端与所述寄存器模块的输入端连接,所述寄存器模块的输出端分别与n个多路复用器模块的控制端连接,每个所述神经节点通过对应的多路复用器模块与其它神经节点实现互连,其中n为大于1的自然数。所述神经网络电路不仅可以实现递归网络拓扑结构,而且可以模仿生物神经突触可塑性实现多种突触可塑机制,并且可以模仿生物体内的蛋白调控神经网络实现多种蛋白调控机制。
  • 一种动态可扩展的卷积神经网络加速器-201910929674.2
  • 刘波;李焱;黄乐朋;孙煜昊;沈泽昱;杨军 - 东南大学
  • 2019-09-29 - 2020-01-17 - G06N3/063
  • 本发明公开了一种动态可扩展的卷积神经网络加速器,属于计算、推算、计数的技术领域。该加速器包括自适应数据存储模块和高效计算阵列调度模块。其中,自适应数据存储模块包括层次化存储模块和外部二维数据转换定制接口模块。高效计算阵列调度模块包括基于乘加逻辑的神经元处理单元阵列数据调度模块和基于查找表的神经元处理单元阵列数据调度模块。整个卷积神经网络加速器通过设计合理的多级存储结构来掩盖外存访问的数据延迟。通过根据网络层特点和任务需求对计算阵列进行数据调度,可以实现数据的重复利用和提高计算阵列查找表的访问并行度,提高运算速度,从而能够适应各种复杂的计算任务。
  • 数模混合神经突触电路-201921055820.5
  • 满梦华;马贵蕾 - 中国人民解放军陆军工程大学
  • 2019-07-08 - 2020-01-17 - G06N3/063
  • 本实用新型公开了一种数模混合神经突触电路,包括微处理器装置、模拟电路模块以及可重构电阻阵列,所述模拟电路模块的输入端为所述突触电路的信号输入端,所述模拟电路模块的输出端与所述可重构电阻阵列的R+端连接,所述模拟电路模块用于向可重构电阻阵列输出正向电流或向可重构电阻阵列输出负向电流;所述可重构电阻阵列的R‑端与所述突触电路的输出端连接,所述可重构电阻阵列的控制端与所述微控制器装置的控制输出端连接,所述可重构电阻阵列用于起到限流的作用,表征了生物神经元之间的连接强度。所述突触电路不仅可以通过微控制实现突触权重电阻的精确在线调节,而且可以实现软件定义的可塑规则。
  • 乘法器、装置、芯片及电子设备-201921434165.4
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2019-08-30 - 2020-01-17 - G06N3/063
  • 本申请提供一种乘法器、芯片及电子设备,所述乘法器包括:正则有符号数编码电路和修正累加电路,其中,所述正则有符号数编码电路的输出端与所述修正累加电路的输入端连接,该乘法器通过正则有符号数编码电路对接收到的数据进行正则有符号数编码处理处理,得到原始部分积,并对原始部分积的高两位数值进行加法运算处理及判断处理,以实现消除符号位扩展处理,得到消除符号位扩展后的部分积,最后通过修正累加电路对消除符号位扩展后的部分积进行累加修正处理,得到目标运算结果,该乘法器能够通过正则有符号数编码电路对接收到的数据进行正则有符号数编码,得到的有效部分积的数目较少,从而降低了乘法器实现乘法运算的复杂性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top