[发明专利]卷积模型硬件加速器的方法和系统在审
申请号: | 202080025824.8 | 申请日: | 2020-02-04 |
公开(公告)号: | CN113892092A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 张磊;钱军 | 申请(专利权)人: | 瀚博控股公司 |
主分类号: | G06F15/76 | 分类号: | G06F15/76;G06F17/10;G06N20/00 |
代理公司: | 上海市金茂律师事务所 31299 | 代理人: | 王翠平 |
地址: | 开曼群岛,大开曼市,*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 模型 硬件 加速器 方法 系统 | ||
一种用于卷积模型硬件加速器的方法和系统。该方法包括将输入特征图的流输入到一个或多个处理器中,所述输入特征图利用包括多个卷积层的卷积模型,对于多个卷积层内的给定卷积层,通过重新混洗多个子块中的多个输出滤波器来重新配置用于多个硬件加速器子块的计算顺序,并且根据重新配置的计算顺序,生成解释输入特征图的输出特征。
技术领域
本文的公开涉及用于包括卷积网络的机器学习模型的处理器技术、装置和系统的领域。
背景技术
机器学习系统提供了用于推进新技术的关键工具,新技术包括自动语音识别、自动车辆、计算机视觉和自然语言理解。已经显示包括卷积神经网络的卷积模型是用于执行图像识别、检测和检索的有效工具。在神经网络可用于这些推理任务之前,必须在计算非常密集的过程中使用数据语料库对其进行训练,其中现有系统通常需要在图形处理单元(GPU)或中央处理单元上花费数周到数月的时间。
随着用于训练和机器学习推理网络的数据越来越多,所需的计算处理时间进一步加剧。硬件加速器比现有的基于GPU的方法更节能,并且显著降低了神经网络训练和推理任务所需的能量消耗。
附图说明
图1A-1B示出了用于实现硬件加速器的示例实施例卷积模型实例。
图2示出了,在一个示例性实施例中,实现卷积模型硬件加速器的包括一个或多个处理器的平台装置的架构。
图3示出了在一个示例实施例中用于实现卷积模型硬件加速器的操作方法。
发明内容
除了其它技术优点和益处之外,本文中的解决方案在稀疏模式的卷积模型中为机器学习推理和训练加速器提供了重新混洗(re-shuffling)或重新分配输出滤波器(本文中也称为滤波器、权重或核)的初始顺序。本文的解决方案发现,用于机器学习推理和训练工作负载的硬件加速器通常提供比CPU或GPU更高的吞吐量,同时消耗更低的功率。特别是关于卷积模型,可以实现多实例机器学习硬件加速器,以提供与单个实例硬件加速器相比更高的吞吐量,进一步提高关于机器学习工作负载的速度和效率。
多实例硬件加速器可以全部用于一个单一的机器学习作业。例如,硬件加速器的所有实例可用于同时对单个图像进行机器学习推理工作,通常用于批量为一的推理。特定模式,稀疏性模式,利用了在卷积模型的输入特征数据和输出滤波器(或权重)部分中可以有很多零的事实。在给定机器学习作业的计算的乘法部分中不使用具有零成分的数据和权重,并且可以使用本文的技术和系统将该方面应用到硬件加速器以进一步加速机器学习任务。本文的公开描述了一种重新平衡多实例卷积模型机器学习推理和训练硬件加速器之间的计算负载的新颖方式,特别是以稀疏性模式进行,以增加并行性水平并减少总体计算时间。
根据第一示例实施例,提供了实现卷积模型硬件加速器的方法。该方法包括利用包括多个卷积层的卷积模型将输入特征图的流接收到一个或多个处理器中,对于多个卷积层内的给定卷积层,通过重新混洗多个子块中的多个输出滤波器来重新配置用于多个硬件加速器子块的计算顺序,并且根据重新配置的计算数据流程,生成解释输入特征图的输出特征。
根据第二示例性实施例,公开了包括一个或多个处理器和存储器的处理系统,所述存储器存储在所述一个或多个处理器中可执行以提供卷积模型硬件加速器的指令。存储器包括可执行以利用包括多个卷积层的卷积模型将输入特征图的流接收到一个或多个处理器中的指令,对于多个卷积层内的给定卷积层,通过重新混洗多个子块中的多个输出滤波器来重新配置用于多个硬件加速器子块的计算顺序,并且根据所述重新配置的计算顺序,生成解释输入特征图的输出特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瀚博控股公司,未经瀚博控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080025824.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:1-磷酸鞘氨醇受体调节剂
- 下一篇:1-磷酸鞘氨醇受体调节剂