[发明专利]用于高效访问ML数据的灵活访问指令在审
申请号: | 202111560100.6 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114648104A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | C.P.弗拉斯卡蒂;S.瓦特斯;R.S.B.哈里哈拉;D.C.坦嫩鲍姆 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06T1/20;G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张婧 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 高效 访问 ml 数据 灵活 指令 | ||
一种用于高效访问ML数据的灵活访问指令。公开了一种图形处理单元(GPU)和一种方法,其执行重铸为矩阵乘法运算的卷积运算。该GPU包括寄存器文件、处理器和状态机。寄存器文件存储输入特征图的数据和过滤器权重内核的数据。处理器将对输入特征图的数据和过滤器权重内核的数据的卷积运算执行为矩阵乘法运算。状态机通过展开在寄存器文件中的输入特征图的数据和过滤器权重内核的数据来促进卷积运算的执行。状态机包括控制寄存器,其确定数据通过寄存器文件的移动,以按展开的方式对寄存器文件中的数据执行矩阵乘法运算。
相关申请的交叉引用
本申请要求2020年12月21日提交的第63/128,838号美国临时申请的优先权权益,该美国临时申请的公开内容通过引用全文合并于此。
技术领域
这里公开的主题涉及图形处理单元(GPU)。更具体地,这里公开的主题涉及一种GPU系统和一种方法,其提高了访问在机器学习(ML)任务中经常遇到的用于三维(3D)矩阵的数据的效率,从而减少存储和存储器访问开销。
背景技术
现代GPU用于图形密集型操作和计算密集型工作负载两者。GPU通常包括可编程的高度并行的一组计算引擎和各种固定功能单元的集合。固定功能单元中的一些可以操作用于提供但不限于纹理地址生成和过滤、图元裁剪、剔除、视口变换、合并、光栅化设置和光栅化、深度比较、混合和其他操作。
机器学习在消费产品中继续变得更加流行,并且在移动设备中已变得相当受欢迎。从高层次的角度来看,ML可以分为训练任务和推理任务。在移动设备上进行训练经常可能是足够计算密集的任务,其有可能离线运行,例如在云端,或者如果在移动设备上仅作为非工作时间的后台工作。另一方面,作为ML模型的应用的推理在移动设备上实时运行,并且可能涉及大型数据集和大量计算,尽管通常计算量比训练期间少。
基于许多ML推理操作中的大量计算,许多片上系统(SoC)可以采用专用神经处理单元(NPU)来支持ML模型类型和操作数格式的各种场景。使用NPU的意图是为了提供比使用中央处理单元(CPU)或GPU可能实现的更高效的性能/瓦特计算单元。虽然对于使用某些输入操作数运行的一些ML模型来说可能是这种情况,但是可能存在这样的情况,其中GPU的通用性质可能更适合,或者当操作数不受NPU支持时(例如,32位浮点(FP32))可能比使用NPU更适合。在一些情况下,ML模型的大多数层可能以低精度(即int8)运行,但可能需要一层以FP32精度(如softmax)运行。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111560100.6/2.html,转载请声明来源钻瓜专利网。