[发明专利]用于神经网络硬件加速的多播网络和存储器转移优化有效
申请号: | 201780040900.0 | 申请日: | 2017-05-06 |
公开(公告)号: | CN109478252B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | J.布吕斯特勒;C.吴 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 姜冰;张金金 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 神经网络 硬件加速 网络 存储器 转移 优化 | ||
公开了神经网络特定的硬件加速优化,包含以恒量或线性时间执行的优化的DRAM转移单元和优化的多播网络。多播网络是被组织成层并且被配置成作为Beneš网络来操作的一组交换节点。网络中的所有交换节点可访问配置数据。在计算机指令内,每层被配置成执行前一层的Beneš网络转换。因为计算机指令被流水线化,可以恒量或线性时间配置交换节点的整个网络。类似地,被配置成按跨距访问存储器的DRAM转移单元将存储器组织成由质数或互质数的量来索引的存储体。索引值被挑选成不会引起存储器地址冲突。一旦接收到存储器规格,DRAM转移单元可算出跨距,从而以恒量或线性时间访问张量的整个平铺。
对相关申请的交叉引用
此专利申请要求2016年5月7日提交的序列号为62/333214、标题为“Memory andProcessing Architecture for Hardware Accelerated Machine Learning”的临时专利申请的优先权,据此通过引用将其完整地结合于本文中。
背景技术
机器学习和深度神经网络,包含深度信任网络(统称为神经网络),正在迅速变得普及。应用起初从计算机图像中的对象识别以及从语音识别开始,现在,在诸如AppleSiriTM、Microsoft CortanaTM、Amazon AlexaTM、Google AssistantTM之类的声音用户接口中是常见的。神经网络目前被运用于工业控制器、医疗诊断,这导致神经网络的急速增长。
然而,神经网络操作,至少当被运用于机器学习和深度神经网络时,通常利用诸如矩阵运算之类的密集的线性代数运算,以及诸如卷积、最大汇合和数据噪声生成之类的更加神经网络特定的操作。这样的操作有助于并行操作,诸如并行地计算矩阵行,这如果在一般并非并行的常见中央处理单元(CPU)上执行,则导致次优的性能。
因此,针对矩阵运算和并行操作而优化的图形处理单元(GPU)的阵列已被运用于神经网络,诸如经由NVidia的CUDATM架构。然而,虽然GPU针对矩阵运算被优化,但是它们没有提供对神经网络(诸如卷积、最大汇合和噪声生成)特定的优化,从而限制它们在神经网络操作中的性能。
附图说明
参考附图来提供详细描述。
图1是用于机器学习硬件加速的系统环境的场景图。
图2是针对机器学习硬件加速的框图。
图3是针对用于机器学习硬件加速的多播网络优化的框图。
图4是针对用于机器学习硬件加速的多播网络优化的流程图。
图5是针对不间断存储体化的计算机存储器的访问跨距的场景图。
图6是针对用于机器学习硬件加速的DRAM转移优化中使用的置换器(permutaton)的框图。
图7是针对用于机器学习硬件加速的DRAM转移优化的框图。
图8是针对用于机器学习硬件加速的DRAM转移优化的流程图。
具体实施方式
用于神经网络硬件加速的多播网络和存储器转移优化的概览
神经网络硬件加速在开发、编译(或编程上转换)和执行利用神经网络的应用的环境的场景内发生。这样的应用经常被称作机器学习应用、深度神经网络应用和/或深度信任网络应用。虽然机器学习并不严格地需要神经网络的使用,但是很多常见的现今框架和技术利用神经网络。深度神经网络可大致认为是一系列的神经网络或神经网络的网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780040900.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理方法及加速装置
- 下一篇:使用合成梯度来训练神经网络