[发明专利]向量计算单元在审
申请号: | 201880059404.4 | 申请日: | 2018-06-20 |
公开(公告)号: | CN111095242A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | D·达斯·萨玛;E·塔尔佩斯;P·J·班农 | 申请(专利权)人: | 特斯拉公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F15/16 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 计算 单元 | ||
一种微处理器系统包括计算阵列和向量计算单元。该计算阵列包括多个计算单元。该向量计算单元与计算阵列通信并且包括多个处理元件。处理元件被配置为从计算阵列接收输出数据元素,并且并行处理所接收的输出数据元素。
本申请要求于2018年2月1日提交的题为“VECTOR COMPUTATIONAL UNIT”的第62/625,251号美国临时专利申请的优先权,并且要求于2017年7月24日提交的题为“ACCELERATED MATHEMATICAL ENGINE”的第62/536,399号美国临时专利申请的优先权,并且是于2017年9月20日提交的题为“ACCELERATED MATHEMATICAL ENGINE”的共同未决的第15/710,433号美国专利申请的部分继续申请,该申请要求于2017年7月24日提交的题为“ACCELERATED MATHEMATICAL ENGINE”的第62/536,399号美国临时专利申请的优先权,其全部通过引用并入本文以用于所有目的。
背景技术
用于机器学习和人工智能的处理通常需要对大型数据的集合执行数学操作,并且通常包括求解多重卷积层和池化层。机器学习和人工智能技术通常利用矩阵操作和非线性函数(诸如激活函数)。机器学习的应用包括自动驾驶汽车和驾驶员辅助汽车。在一些场景中,计算机处理器用于执行机器学习训练和推理。传统计算机处理器能够非常快速地执行单个数学操作,但是通常只能同时地对有限数量的数据进行操作。作为备选方案,可以利用图形处理单元(GPU),并且该GPU能够执行相同数学操作,但是可以对更大数据的集合执行并行数学操作。通过利用多个处理器核,GPU可以并行执行多个任务,并且通常能够完成比传统计算机处理器更快利用并行性的大型图形处理任务。然而,GPU和传统计算机处理器均非最初为机器学习或人工智能操作而设计。机器学习和人工智能操作通常依赖于对非常大的数据集重复应用特定机器学习处理器操作的集合。因此,需要一种微处理器系统,其支持对大型数据集并行执行机器学习和人工智能特定处理操作,而无需对于每个并行操作的多个处理核心的开销。
附图说明
在以下具体实施方式和附图中公开了本发明的各种实施例。
图1是图示了用于执行机器学习处理的微处理器系统的实施例的框图。
图2是图示了用于执行机器学习处理的微处理器系统的实施例的框图。
图3是图示了用于执行机器学习处理的微处理器系统的实施例的框图。
图4A是图示了用于执行机器学习处理的向量计算单元的实施例的框图。
图4B是图示了示例性的向量寄存器的混叠的表。
图5是图示了对于确定微处理器系统的处理器指令的过程的实施例的流程图。
图6A是图示了对于向量计算单元的运行执行的过程的实施例的流程图。
图6B是图示了对于由向量计算单元处理向量数据的过程的实施例的流程图。
图7是图示了用于向量计算单元指令的编码格式的实施例的框图。
图8是图示了对于由向量计算单元执行单个向量计算单元指令的过程的实施例的流程图。
图9是图示了向量计算单元的示例性指令周期的图。
图10是图示了计算阵列的计算单元的实施例的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯拉公司,未经特斯拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880059404.4/2.html,转载请声明来源钻瓜专利网。