[发明专利]任人构形计算单元有效

专利信息
申请号: 03808062.1 申请日: 2003-04-07
公开(公告)号: CN1703669A 公开(公告)日: 2005-11-30
发明(设计)人: A·埃尔贝;W·菲斯彻;N·詹斯森;H·塞德拉克 申请(专利权)人: 因芬尼昂技术股份公司
主分类号: G06F9/302 分类号: G06F9/302;G06F9/38
代理公司: 中国专利代理(香港)有限公司 代理人: 吴立明;张志醒
地址: 德国*** 国省代码: 德国;DE
权利要求书: 查看更多 说明书: 查看更多
摘要: 一计算单元,包括一第一计算单元区块,一第二计算单元区块,控制装置,以及包含连接线路的连接装置,其中,各在所述第一计算单元区块以及所述第二计算单元区块中具有相同重要性的基本胞元,乃具有一个别的连接线路,进以藉由平行操作所述等计算单元区块的所述控制装置而达成一快速缓存器交换。
搜索关键词: 构形 计算 单元
【主权项】:
1.一种计算单元,包括:一第一计算单元区块(10),其包括一第一复数个基本胞元(10a、10b、10c),而所述等基本胞元(10a、10b、10c)包含用于一第一操作数之一最不重要位的一LSB基本胞元(10b),以及用于所述第一操作数之一最重要位的一MSB基本胞元(10c),且所述第一计算单元区块之各基本胞元乃包括用于储存所述第一操作数之一位的至少一缓存器胞元;一第二计算单元区块(12),其包括一第二复数个基本胞元(12a、12b、12c),而所述等基本胞元(12a、12b、12c)包含用于一第二操作数之一最不重要位的一LSB基本胞元(12b),以及用于所述第二操作数之一最重要位的一MSB基本胞元(12c),且所述第二计算单元区块之各基本胞元乃包括用于储存所述第二操作数之一位的至少一缓存器胞元,其中,所述第一以及第二计算单元区块(10、12)系彼此间隔配置,以使得在所述第一计算单元区块(10)之一基本胞元(10a)与所述第二计算单元区块(12)之一相同重要性基本胞元(12a)之间的一空间距离会小于在所述第一计算单元区块(10)之所述基本胞元(10a)与所述第二计算单元区块(12)之不同重要性基本胞元(12b、12c)之间的一平均距离;连接装置,其具有数量相等于在一计算单元区块(10、12)中之基本胞元之数量的连接线路(14a、14b、14c),其中,一连接线路系会将具有所述第一计算单元区块(10)之一重要性的一基本胞元的至少一缓存器胞元连接至所述第二计算单元区块(12)之具有相同重要性之一基本胞元的一缓存器胞元;以及控制装置(16),用于经由所述的连接线路(14a、14b、14c)而将一计算单元区块(10)之所述缓存器胞元的一内容加载另一个计算单元区块(12)之所述缓存器胞元之中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于因芬尼昂技术股份公司,未经因芬尼昂技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/03808062.1/,转载请声明来源钻瓜专利网。

同类专利
  • 数据处理方法、装置和计算机设备-202310843408.4
  • 余玉琴;曾耀辉;卞仁玉;张淮声 - 格兰菲智能科技有限公司
  • 2023-07-10 - 2023-10-20 - G06F9/302
  • 本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述数据处理方法包括:响应于计算指令,获取源数据;采用计算模块对源数据进行计算,得到目标数据值;当目标数据值不符合计算指令携带的计算信息时,获取新的源数据,并将目标数据值转发至计算模块的输入端;采用计算模块对新的源数据和目标数据值进行计算,得到新的目标数据值;当新的目标数据值符合计算信息时,将新的目标数据值作为数据计算结果;否则,持续获取新的源数据,直到新的目标数据值符合计算信息,通过该种设置,能够节约寄存器资源,省略数据的写入和读取步骤,加快计算速度。
  • 嵌入式星载异构多核智能计算系统及方法-202310807961.2
  • 黄宇轩;刘奎;朱坤托;王滔;程世祺;田文波;朱新忠 - 上海航天计算机技术研究所
  • 2023-07-03 - 2023-10-03 - G06F9/302
  • 本发明提供一种嵌入式星载异构多核智能计算系统及方法,该系统包括主控中央处理模块和神经网络处理模块。其中,主控中央处理模块中,NOR FLASH采用三模冗余实现主程序备份,NAND FLASH中存储数据,上电后激活值数据从NAND FLASH传输至DDR中,权重数据从NAND FLASH传输至LPDDR中,CPU通过总线将指令和激活值数据发送至NPU;神经网络处理模块中,NPU接收指令和激活值数据,从LPDDR中读取权重数据并计算,计算后的数据有两种传输方式,一种通过流水线形式传输给下一级NPU计算,另一种通过总线将计算完成的结果传输回CPU。本发明支持基于数据流并行的主控CPU+多NPU的神经网络模型推理加速,提升面向星载应用的神经网络计算帧率和能效。
  • 一种空间远距离传输数据编解码指令集系统及计算系统-202310809805.X
  • 黄丹;禹霁阳;杨天宝;肖雄;程思玮;卢玲;闫欢 - 中国兵器科学研究院;北京空间飞行器总体设计部
  • 2023-07-04 - 2023-09-22 - G06F9/302
  • 本发明公开了一种空间远距离传输数据编解码指令集系统及计算系统,指令集系统包括扩展指令集编码,用于进行编码处理指令集;扩展指令集编码为28位等长的指令集编码格式,支持8个32位通用功能寄存器,编码处理指令集gfmu指令,用于完成寄存器支架的伽罗华域乘法操作;compvec指令,用于完成内存中地址向量A和地址向量C的加、减、乘、除、与、或、非、异或、左旋转移位和右旋转移位操作,结果存入地址向量C;compvbwr指令,用于以DMA形式完成向向量B写入向量处理所需要的数据;sboxcpy指令,用于写入查询表格数据,以完成查询预置表的写入;sboxing指令,用于实现写入数据的编码操作输出功能;本发明可以降低批量数据编码中控制流程造成的计算时间开销,提高计算性能。
  • 具有高带宽和低功率向量寄存器堆的流处理器-201710434300.4
  • 陈佳升;何斌;马克·M·莱瑟;迈克尔·J·曼托尔;邹云晓 - 超威半导体公司
  • 2017-06-09 - 2023-09-19 - G06F9/302
  • 本发明涉及一种具有高带宽和低功率向量寄存器堆的流处理器。公开了用于实现由并行处理器使用的高带宽低功率的向量寄存器堆的系统、装置和方法。在一个实施方式中,系统至少包括具有多个处理流水线的并行处理单元。并行处理单元包括向量运算逻辑单元和高带宽低功率向量寄存器堆。向量寄存器堆包括满足寄存器带宽要求的多内存库高密度随机存取存储器(RAM)。并行处理单元还包括指令请求队列和指令操作数缓冲器,以便为VALU指令和向量I/O指令提供足够的本地带宽。此外,并行处理单元被配置为利用RAM的输出触发器作为最后一级高速缓存来减少多个指令之间的重复操作数请求。并行处理单元包括向量目标高速缓存以向向量寄存器堆提供附加的R/W带宽。
  • 混合精度运算的处理方法以及指令处理装置-202310571408.3
  • 张文蒙 - 阿里巴巴(中国)有限公司
  • 2023-05-17 - 2023-08-25 - G06F9/302
  • 公开了一种混合精度运算的处理方法以及指令处理装置。指令处理装置包括:寄存器堆,包括多个寄存器;译码单元,用于对混合精度运算指令进行译码,并得到译码信息,所述译码信息指示执行单元执行下述操作;对多个寄存器中的第一寄存器和第二寄存器执行指定算术操作,并将结果写回到多个寄存器中的第三寄存器,第一寄存器和第二寄存器内的操作数的精度不同;执行单元,耦接到寄存器堆和译码单元,用于基于译码信息执行相应操作。和现有的处理器相比,该指令处理装置无需将混合精度统一为同一精度再进行算术操作,因而提高了混合精度运算的处理效率,并节省了将混合精度统一为同一精度时所占用的存储空间。
  • 神经网络模型的编译方法、优化模型的训练方法和装置-202310603567.7
  • 沈碧螺;邓博文;李建军;张骞 - 北京地平线信息技术有限公司
  • 2023-05-25 - 2023-08-22 - G06F9/302
  • 本公开实施例公开了一种神经网络模型的编译方法、优化模型的训练方法和装置,其中,方法包括:获取待编译神经网络模型;基于待编译神经网络模型,确定待编译神经网络模型对应的中间指令序列;利用预先训练获得的指令序列优化模型对中间指令序列进行处理,获得中间指令序列对应的目标优化参数;基于目标优化参数,确定中间指令序列对应的优化指令序列;将优化指令序列转换为可执行指令序列,获得待编译神经网络模型对应的神经网络处理器可执行的目标指令序列。本公开实施例可以大大降低编译时间,从而可以有效提高编译效率。
  • 一种浮点除法、开根号硬件计算装置及计算方法-202310378233.4
  • 高玉鑫 - 青岛本原微电子有限公司
  • 2023-04-11 - 2023-08-11 - G06F9/302
  • 本发明涉及微处理器内的浮点运算技术领域,公开了一种浮点除法、开根号硬件计算装置及计算方法,装置采用16级流水线结构,分成三个部分;第一部分是数据的预处理部分,共1级流水线;第二部分是迭代部分,总共14级流水线,用于处理尾数除法和开根号迭代运算以及得出指数结果;第三部分是最终数据处理部分,共1级流水线,用于特殊数据处理、非规格化处理、5种舍入、规格化以及5种异常标志处理。本发明所公开的装置及方法计算精度高、硬件资源小、实现功能全面,本装置通过降低舍入模式处理的复杂度,进行资源复用,提高资源复用率;在实现浮点除法、开根号计算时,保证计算的最高精度要求,同时得出完善的特殊计算时的标志。
  • 一种基于类加法器的指令请求电路及乱序指令发射架构-202010264215.X
  • 虞致国;马晓杰;魏敬和;顾晓峰 - 江南大学
  • 2020-04-07 - 2023-08-08 - G06F9/302
  • 本发明公开了一种基于类加法器的指令请求电路及乱序指令发射架构,属于处理器设计领域。所述方法通过提供一种基于类加法器的指令请求电路,在对表项空闲信号总数进行统计时,利用类加法单元对两个输入信号分别作与运算和异或运算,取代传统指令请求电路在统计空余表项信息时采用逻辑加的方式,节省了指令请求电路统计表项空闲信号总数的耗时,从而能够满足现代超标量乱序处理器中高性能功耗比、低延时、高IPC的要求,解决了现有技术中处理器无法在发射队列表项数日益增加,延迟也日益增加的问题。
  • 一种基于指令凋零的多指令乱序发射方法及处理器-202010264562.2
  • 虞致国;马晓杰;魏敬和;顾晓峰 - 江南大学
  • 2020-04-07 - 2023-08-08 - G06F9/302
  • 本发明公开了一种基于指令凋零的多指令乱序发射方法及处理器,属于处理器设计领域。本发明摒弃了传统发射架构中冗长的仲裁结构,增加指令凋零电路,采用指令年龄阵列来表征指令在CPU中存储的时间,另外加上一位唤醒状态位,将已经超过凋零阈值的指令存放至沉降池以便CPU直接发射,并改善指令请求电路、指令分配电路、唤醒电路等电路结构,有效改善多指令发射这一处理器中关键路径的时序;唤醒指令时,对执行周期短的指令延迟唤醒,对执行周期长的指令提前唤醒,以保证指令能够背靠背执行,满足了现代超标量乱序处理器中高性能功耗比、低延时、高IPC的要求,解决了现有技术中处理器无法在发射队列表项数日益增加、延迟也日益增加的问题。
  • 一种多功能定点乘法和乘累加运算装置及方法-202310383363.7
  • 张余超 - 青岛本原微电子有限公司
  • 2023-04-11 - 2023-07-18 - G06F9/302
  • 本发明属于计算机数据处理领域,公开了一种多功能定点乘法和乘累加运算装置及方法,运算装置包括依次设置的指令译码和数据分配模块、符号扩展预处理模块、布什编码模块、布什译码模块、部分积数位分配模块、华莱士树模块以及加法器模块;本发明的装置实现了一个基本的2n位乘法华莱士压缩树逻辑可以完全复用在两个乘累加器的华莱士树压缩电路上,极大地节约了晶体管资源,减小了面积和降低了功耗;可以满足高性能处理器的时钟周期长度的要求,芯片设计面积小、功耗低、时序路径优。并且本发明兼有溢出保护处理,十分适合应用在对功耗、面积、频率要求较高的嵌入式场景中,满足了数字信号处理等应用场景对乘累加操作溢出保护处理的要求。
  • 转换指令-202211637277.6
  • R·瓦伦丁;W·S·王;J·库姆斯;M·查尼 - 英特尔公司
  • 2022-12-16 - 2023-07-14 - G06F9/302
  • 本发明描述转换指令。描述了用于使用指令进行数据类型转换的技术。示例性指令包括用于以下各项的字段:操作码、源操作对象的标识和目的地操作对象的标识,其中操作码用于指示执行电路和/或存储器访问电路要进行:将来自所标识的源操作对象的32比特浮点值转换为16比特浮点值,以及将该16比特浮点值存储在所标识的目的地操作对象的数据元素位置中。
  • 一种应用于向量运算的浮点处理方法、系统、介质及设备-202310209993.2
  • 伍政学;郑泽锐;蔡显能;王荣丰;李晋;霍旭东;杜鹰;胡波 - 成都申威科技有限责任公司
  • 2023-03-07 - 2023-07-11 - G06F9/302
  • 本发明属于浮点计算领域,尤其涉及一种应用于向量运算的浮点处理方法、系统、介质及设备。该方法包括:获取待处理指令,增加发射队列的计数器;当发射队列的计数器不为0时,且发射接收单元准备好,根据待处理指令中的元素数量以及待处理指令的类别,按预设通道对与元素数量相对应的第一操作数进行发射,对第一操作数进行计算,生成执行结果,将执行结果放入结果队列中,增加结果队列的计数器;当结果队列的计数器不为0时,基于待处理指令的类别,将结果队列中的执行结果按类别进行整合;重复步骤1至步骤3直至完成所有待处理指令。通过本发明能够达到较高性能以及较小面积和较低功耗的效果。
  • 转换指令-202211603326.4
  • R·瓦伦丁;W·S·王;J·库姆斯;M·查尼 - 英特尔公司
  • 2022-12-13 - 2023-06-27 - G06F9/302
  • 本发明描述转换指令。描述了用于数据类型转换的技术。示例使用指令,该指令包括用于操作码、源操作对象位置标识和目的地操作对象位置标识的字段,其中操作码用于指示指令处理电路要进行:将来自所标识的源操作对象位置的16比特浮点值转换为32比特浮点值,以及将该32比特浮点值存储在所标识的目的地操作对象的一个或多个数据元素位置中。
  • 一种基于SVE指令集的池化层函数的高性能实现方法-202310132475.5
  • 全哲;谭言西 - 湖南大学
  • 2023-02-20 - 2023-05-05 - G06F9/302
  • 本申请公开了一种基于SVE指令集的池化层函数的高性能实现方法,其针对支持SVE指令集的Armv8、Armv9架构平台,采用interface接口‑driver驱动‑kernel汇编核心代码三层代码设计框架,使用循环展开,汇编级别流水线指令重排,SIMD向量化指令,双向循环展开等技术手段,实现了汇编级别的优化手段,并且提供了多线程的接口和可用于多线程的逻辑实现来获取线程化的优化。面对NHWC数据类型的池化操作,解决了编译器无法获得最佳性能的问题,提高了硬件的性能表现,与传统形式NHWC深度优先的池化相比,在x86上创建的Armv8.2虚拟机上仍可以达到2.67倍加速比。
  • 基于MT3000异构处理器的深度学习计算库实现方法-202310101112.5
  • 全哲;张程 - 湖南大学
  • 2023-02-13 - 2023-04-28 - G06F9/302
  • 本申请公开了一种基于MT3000异构处理器的深度学习计算库实现方法,属于深度学习技术领域。该方法针对天河新一代超级计算机异构处理器MT3000原型机,使用engine引擎‑stream数据流‑memory内存对象‑primitives原语四层设计框架,实现了一套完整的深度学习计算库,并针对该处理器的体系结构对卷积、池化、激活、归一化等深度学习常用算子进行计算优化,卷积算子相较于纯CPU版本实现最高加速比为7.56。
  • 一种数据处理方法、装置及处理器-202211634334.5
  • 郭伟 - 海光信息技术股份有限公司
  • 2022-12-15 - 2023-03-17 - G06F9/302
  • 本公开提供一种数据处理方法、装置及处理器,其中所述方法包括:读取单一数据特征计算硬件指令;对读取到的单一数据特征计算硬件指令进行解码;执行解码后的单一数据特征计算硬件指令,以完成至少3个以上数据的特征计算全过程。本公开提供的技术方案可适用于深度学习和人工智能技术中池化层实现池化算法的场景,能够很好地提高计算速度。
  • 一种字符串长度函数分段优化方法及其存储介质-202211473566.7
  • 姜军;夏竹轩;蒋丽萍;谢豪 - 无锡先进技术研究院
  • 2022-11-23 - 2023-03-14 - G06F9/302
  • 本发明公开了一种字符串长度函数分段优化方法及其存储介质,步骤S10,根据字符串的首地址,不对界装入字符串;步骤S11,去除字符串的首地址之前的无关数据的干扰;步骤S12,对字符串的首地址进行对界处理;步骤S13,寻找对界处理后的字符串的结束符,若未找到结束符则循环寻找字符串的结束符,若找到则进行尾部处理;计算字符串长度。采用上述优化方法实现的字符串长度函数,增加了单次处理的数据量,精简了指令数量,特别在输入字符串数据量大的情况下,充分利用了向量指令集的优势实现计算字符串长度的功能,以此提升函数性能。
  • 一种机载雷达空时自适应处理器-202010136564.3
  • 苏涛;彭宇;张永振 - 西安电子科技大学
  • 2020-03-02 - 2023-03-14 - G06F9/302
  • 本发明涉及一种机载雷达空时自适应处理器,包括:第一预处理板卡、第二预处理板卡、第一自适应板卡、第二自适应板卡、交换板卡、机箱和上位机,其中,第一预处理板卡连接在机箱上,并且连接上位机;第二预处理板卡连接在机箱上,并且连接上位机;第一自适应板卡连接在机箱上;第二自适应板卡连接在机箱上;交换板卡连接在机箱上;上位机连接交换板卡。该空时自适应处理器运算处理器少,成本低,功耗低,尽可能采用更少的运算处理器,实现整个机载雷达空时自适应处理器。
  • 用于动态调整流水线深度以改善执行等待时间的方法和装置-202210725969.X
  • S·盖恩;D·乔希;P·兰兹;R·桑卡兰;N·兰加纳坦 - 英特尔公司
  • 2022-06-23 - 2023-02-03 - G06F9/302
  • 用于管理数据处理设备的流水线深度的装置和方法。例如,装置的一个实施例包括:接口,用于接收来自多个客户机的多个工作请求;以及多个引擎,用于执行多个工作请求;其中,工作请求用于从多个工作队列被分派至多个引擎,工作队列用于存储针对每一工作请求的工作描述符,每个工作描述符用于包括执行对应的工作请求所需要的信息,其中,多个工作队列包括用于存储与第一等待时间特性相关联的工作描述符的第一工作队列和用于存储与第二等待时间特性相关联的工作描述符的第二工作队列;引擎配置电路,用于基于第一等待时间特性将第一引擎配置成具有第一流水线深度并且用于基于第二等待时间特性将第二引擎配置成具有第二流水线深度。
  • 一种浮点数据反量化及量化的方法和设备-202010028998.1
  • 刘海威;张新;赵雅倩;董刚;杨宏斌;尹文枫 - 苏州浪潮智能科技有限公司
  • 2020-01-12 - 2023-01-10 - G06F9/302
  • 本发明提供了一种浮点数据反量化及量化的方法和设备,该方法包括以下步骤:将存储器中的INT8数据转换成浮点数据;提取浮点数据中的指数得到指数矩阵并将指数矩阵中的最大值存储到数据存储器;响应于指数矩阵中的值不均为0,基于最大值得到移位矩阵;基于移位矩阵计算得到用于卷积计算的尾数矩阵;基于尾数矩阵进行卷积乘累加计算得到格式为FINT32的结果;将格式为FINT32的结果转换成格式为fp32的数据以用于卷积输入通道的累加计算。通过使用本发明的方法,能够在卷积计算时保持数据的高精度,同时减少复杂运算,能够有效保证计算的高精度,同时由于复杂计算的简化,减少了FPGA硬件资源的消耗,提高计算速度。
  • 运算方法、装置及相关产品-201811455827.6
  • 不公告发明人 - 上海寒武纪信息科技有限公司
  • 2018-11-30 - 2022-11-29 - G06F9/302
  • 本公开涉及运算方法、装置及相关产品。机器学习装置包括一个或多个指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;当机器学习运算装置包含多个指令处理装置时,多个指令处理装置间可以通过特定的结构进行连接并传输数据。其中,多个指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据;多个指令处理装置共享同一控制系统或拥有各自的控制系统、且共享内存或者拥有各自的内存;多个指令处理装置的互联方式是任意互联拓扑。本公开实施例所提供的运算方法、装置及相关产品能够在保证计算精度无损的同时,降低数据访存量和计算量。
  • 指令处理方法、装置、处理器和电子设备-202210893579.3
  • 王云贵;郝成龙 - 安谋科技(中国)有限公司
  • 2022-07-27 - 2022-11-01 - G06F9/302
  • 本申请涉及计算机领域,公开了一种指令处理方法、装置、处理器和电子设备。在对具有进位标志依赖关系的第一指令和第二指令进行处理时,在第一时钟周期对应于第一指令进行解码,然后进入第二时钟周期;在第二时钟周期内,此时对应于第一指令进行移位,同时对应于第二指令进行解码,但是由于此时未产生第一指令的进位标志结果,此时不等待第一指令的进位标志结果的产生,结束对第二指令的解码使得处理第二指令的过程由第二周期进入第三周期。因而,在处理具有进位标志依赖关系的第一指令和第二指令时,由于第二指令提前进入第三周期,使得第二指令的下一指令可以不需要多等待一个时钟周期提前进入解码阶段,进而当处理多条指令时,提高处理效率。
  • 一种多路混合基FFT可重构蝶形运算器-201810886891.3
  • 宋宇鲲;曲双双;陈楠;张多利;杜高明 - 合肥工业大学
  • 2018-08-06 - 2022-11-01 - G06F9/302
  • 本发明公开了一种多路混合基FFT可重构蝶形运算器,该蝶形运算器包括:控制单元,第一选择开关单元以及运算单元;控制单元用于根据接收到的待运算数据生成运算指令,其中,待运算数据包括待处理的数字信号、旋转因子以及预设旋转因子系数;第一选择开关单元用于根据运算指令选择对应的导通模式;运算单元用于根据导通模式,对待运算数据进行蝶形运算。通过本发明中的技术方案,有利于提高蝶形运算器中电子元件的利用效率,减小了电路硬件资源和功耗,有利于提高计算数据的准确性和实时性。
  • 显示屏拼接结构及智能交互平板-202080080308.5
  • 谭景焕 - 广州视源电子科技股份有限公司;广州视睿电子科技有限公司
  • 2020-12-08 - 2022-10-18 - G06F9/302
  • 一种显示屏拼接结构(100)及智能交互平板,拼接结构(100)包括:至少包括第一连接件(1)、第二连接件和连接支架(2),第一连接件(1)和第二连接件分别设置相邻两台显示屏(200)的背板上,且第一连接件(1)和第二连接件相对设置,第一连接件(1)和第二连接件通过连接支架(2)连接;第一连接件(1)、第二连接件和连接支架(2)均设置有斜面,第一连接件(1)、第二连接件与连接支架(2)之间通过斜面配合安装,连接支架(2)安装完成后与第一连接件(1)、第二连接件连接,两台显示屏(200)在第一连接件(1)和第二连接件的作用力下互相抵紧。
  • 一种基于AI处理器的通用矩阵乘算子的处理方法和装置-202210598490.4
  • 杨凯;范登栋;徐鹏翔;刘勇翔;田永鸿 - 鹏城实验室
  • 2022-05-30 - 2022-10-14 - G06F9/302
  • 本发明涉及矩阵处理技术领域,具体是涉及一种基于AI处理器的通用矩阵乘算子的处理方法和装置。依据原矩阵中的设定元素,在CPU上计算出输入矩阵;将所述输入矩阵搬运至所述全局内存;将搬运至所述全局内存的输入矩阵和位于所述全局内存上的矩阵作为通用矩阵乘算子的输入,得到所述通用矩阵乘算子的输出矩阵。本发明在AI处理器上通过通用矩阵乘算子处理矩阵,能够使得AI处理器的计算资源得到充分利用,从而提高了处理矩阵的速度和效率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top