[发明专利]一种残差网络实现方法、系统、设备及计算机存储介质有效
申请号: | 201710947024.1 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107609646B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 丁良奎;郭跃超;李磊 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 实现 方法 系统 设备 计算机 存储 介质 | ||
本发明公开了一种残差网络实现方法、系统、设备及计算机存储介质,其中该方法包括:DDR获取外界输入的图片信息;Pe Feeder读取DDR获取的图片信息,并将图片信息作为当前图片信息发送至Pe模块组;Pe模块组对当前图片信息进行卷积运算,得到卷积结果,并将该卷积结果发送至残差模块;残差模块在预设的头文件的触发下,对卷积结果进行残差操作;Sequencer基于头文件判断是否进入下一次卷积操作,若是,则将残差模块的输出结果作为当前图片信息发送至Pe模块组,返回Pe模块组对当前图片信息进行卷积运算的操作。本发明公开的一种残差网络实现方法解决了如何在FPGA上实现残差网络结构的技术问题。
技术领域
本发明涉及深度学习加速技术领域,更具体地说,涉及一种残差网络实现方法、系统、设备及计算机存储介质。
背景技术
深度学习的常用加速引擎有GPU(Graphics Processing Unit,图形处理器)及FPGA(Field-Programmable Gate Array,现场可编程门阵列)。GPU有较多的核心计算单元,并行处理能力强,然而其价格昂贵,功耗较大,并且数据处理的延时性高。相比于GPU,FPGA能够通过编程重构计算单元,具有低功耗、低延时和高性价比的特点。所以现阶段均借助FPGA来实现深度学习。
现有技术中,已经在FPGA上实现了深度学习中的数据中心CNN算法、AlexNet网络及GoogleNet V1。
然而,还没有一种在FPGA上实现深度学习中的残差网络结构的方法。
综上所述,如何在FPGA上实现残差网络结构是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种残差网络实现方法,其能在一定程度上解决如何在FPGA上实现残差网络结构的技术问题。本发明还提供了一种残差网络实现系统、设备及计算机存储介质。
为了实现上述目的,本发明提供如下技术方案:
一种残差网络实现方法,包括:
DDR获取外界输入的图片信息;
Pe Feeder读取所述DDR获取的所述图片信息,并将所述图片信息作为当前图片信息发送至Pe模块组;
Pe模块组对当前图片信息进行卷积运算,得到卷积结果,并将该卷积结果发送;
残差模块在预设的头文件的触发下,接收所述卷积结果并对所述卷积结果进行残差操作,得到输出结果;
Sequencer基于所述头文件判断是否进入下一次卷积操作,若是,则将所述残差模块的输出结果作为当前图片信息发送至所述Pe模块组,返回所述Pe模块组对当前图片信息进行卷积运算的操作;
其中,所述DDR、Pe Feeder、Pe模块组、残差模块、头文件及Sequencer均属于FPGA。
优选的,所述Pe模块组将该卷积结果发送之后,所述残差模块接收所述卷积结果之前,还包括:
所述Pe模块组将该卷积结果发送至Norm模块;
所述Norm模块在预设的头文件的触发下,对所述卷积结果进行批归一化操作,并将所得结果输出;
Scale模块在所述头文件的触发下,对所述Norm模块的输出结果进行缩放操作,并将所得结果输出;
ReLU模块在所述头文件的触发下,对所述Scale模块的输出结果进行ReLU激活函数操作,并将所得结果输出;
pool模块在所述头文件的触发下,对所述ReLU模块的输出结果进行pool操作,并将自身的输出结果发送至残差模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710947024.1/2.html,转载请声明来源钻瓜专利网。