[发明专利]基于现场可编程门阵列的卷积神经网络加速系统在审
申请号: | 201810497946.1 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108665059A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 李曦;周学海;王超;孙凡;万波 | 申请(专利权)人: | 中国科学技术大学苏州研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 现场可编程门阵列 卷积神经网络 加速系统 处理引擎 通用处理器 总线 加速器系统 精简指令集 外部存储器 存储模块 控制总线 命令传输 时间测量 数据传输 数据总线 主机端 加速器 映射 能效 软核 流水线 收益 通信 | ||
本发明公开了一种基于现场可编程门阵列的卷积神经网络加速系统,所述加速系统包括通用处理器、现场可编程门阵列、存储模块以及数据总线和控制总线,其中,通用处理器是一个精简指令集的软核,它负责启动加速器、与主机端进行通信以及时间测量等;DDR3 DRAM作为加速器系统的外部存储器;AXI4‑Lite 总线用于命令传输,AXI4 总线用于数据传输;现场可编程门阵列中包含有多个处理引擎(PE),每一个处理引擎都使用了最合适的分片展开策略来与卷积神经网络中一层的计算对应;所有的处理引擎都映射到同一块FPGA芯片上,这样不同的层能够以流水线的方式同时工作。本发明相对于已有的卷积神经网络加速系统能够取得更高的能效收益。
技术领域
本发明涉及一种算法的硬件加速平台,具体涉及一种通用性好和灵活性高的基于现场可编程门阵列的卷积神经网络加速系统及其设计方法。
背景技术
卷积神经网络(CNN)隶属于人工神经网络,是一种前馈的深度神经网络,已经得到了广泛的应用,如字符识别,图片分类和自然语言理解。
由于卷积神经网络的特定计算方法,因此在通用处理器(CPU)上效率并不高,并且很难达到很高的性能。在实践中,图形处理器(GPU)被广泛应用于卷积神经网络的训练和分类任务中,然而,它受限于较低的能效收益。除了GPU被应用于卷积神经网络加速以外,基于专用集成电路(ASCI)和现场可编程门阵列(FPGA)的卷积神经网络加速器也被提出。综合比较这些平台(CPU,GPU,ASIC和FPGA),基于FPGA的加速器因为具有可重构性高,开发周期短和高能效等优点,越来越受欢迎。
但是,使用FPGA来加速卷积神经网络仍然存在很多挑战。众所周知,FPGA平台主要受限于有限的计算资源和昂贵的片外内存访问。然而,在最先进的卷积神经网络模型中,存在大量的计算操作(>1G)和大量的参数(>50M),这将需要消耗大量的能量。并且,卷积层参数的高可变特性也损害了硬件资源的充分利用。随着技术的发展,为了达到更高的精度,卷积神经网络模型会变得越来越大,越来越复杂,这将加剧这种情况。因此,需要设计一个高能效的CNN加速器。
在使用CNN模型进行推断之前,需要对CNN模型进行训练。对CNN的训练一般都采用离线的方式将模型预先训练好,然后利用训练好的模型做实时的推断处理。由于推断过程对实时性要求很高,因此,加速CNN的推断过程比训练过程有更为现实的意义和价值。卷积神经网络推断过程的高性能低功耗实现一直是近年来的研究热点,受到了学术界和工业界的广泛关注。
目前用于硬件加速的平台有通用图形处理器(GPU)、专用集成电路(ASIC)和现场可编程逻辑门阵列(FPGA)。
其中,GPU是由很多的并行计算单元所构成,在GPU内部一般都是通过采用SIMD的方式对应用进行加速,因此,GPU特别适合加速计算密集型的应用。目前,有CUDA、GLSL和OpenGL等成熟的编程框架可用于GPU平台,使得GPU平台的开发门槛相对较低,GPU平台已经成为使用广泛的加速平台。但是,GPU平台仅适用于执行数据级并行的任务,对于深度神经网络计算中不能进行数据级并行的部分任务,加速效果不太明显。
ASIC是专用集成电路,因此只对特定的应用具有很好的加速效果。但是ASIC的灵活性很低,只要应用需求发生微小的改动都需要重新来设计整个的硬件电路。并且,ASIC的开发需要具备很好的硬件知识和经验,因此门槛很高,并且ASIC的开发周期也很长,导致开发的成本也很大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学苏州研究院,未经中国科学技术大学苏州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810497946.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于分段损失的生成对抗网络方法
- 下一篇:一种用于计算光刻的集成神经网络