[发明专利]卷积神经网络的加速方法和计算机可读存储介质有效
申请号: | 201911335752.2 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111178505B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 许勇;刘灵辉;郑维宏 | 申请(专利权)人: | 福建星网视易信息系统有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/048;G06N3/063;G06F9/38;G06V10/82;G06V40/10 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 张忠波;徐剑兵 |
地址: | 350008 福建省福州市仓山区金山*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 神经网络 加速 方法 计算机 可读 存储 介质 | ||
本发明公开了一种卷积神经网络的加速方法和计算机可读存储介质,卷积神经网络的加速方法包括计算卷积的输入/输出数据的排序,使所述输入数据在内存中按卷积时的访问顺序连续存储;对卷积的系数数据进行排序,使所述系数数据在内存中按卷积时的访问顺序连续存储;将矩阵分割成两个以上的子矩阵,为所述子矩阵乘法运算的输入数据、系数数据以及输出数据分配SIMD寄存器进行卷积计算,使所述子矩阵卷积所需要的SIMD寄存器数量numreg满足:numreg=ri+ct+ri×sc,且所述numreg为小于或等于CPU处理器的SIMD寄存器数量tn的最大值。本发明使输入数据在内存中连续存储,并且将矩阵分割成子矩阵,使SIMD寄存器补充充分用于子矩阵卷积,从而提高CPU的卷积效率。
技术领域
本发明涉及神经网络卷积技术领域,特别是涉及一种卷积神经网络的加速方法和计算机可读存储介质。
背景技术
卷积计算应用于计算机视觉各领域,随着深度卷积网络的复杂性不断提高,计算量也随之增大,从而导致深度卷积神经网络对硬件计算能力要求非常高。而嵌入式设备上的计算能力有限,很难达到通用计算机的计算效果。
随着嵌入式CPU的发展,ARM公司的CPU已经占有了巨大的市场份额,其中contex-A系列处理器已广泛应用于智能手机、机顶盒智能电视等各种智能化的设备中。contex-A系列处理器提供的128位SIMD(Single Instruction,Multiple Data,单指令、多数据)运算指令扩展结构被称为NEON,从智能手机和移动计算设备到HDTV,NEON已被公认为是多媒体应用领域中最为优越的处理器之一。Neon指令是适用于ARM Cortex-A系列处理器的一种128位SIMD(Single Instruction,Multiple Data,单指令、多数据)扩展结构。Neon指令采用专门设计,简化了软件在不同平台之间的移植,为类似Dolby Mobile的密集型多媒体应用提供了低能耗和灵活的加速功能。搭载了ARMV8指令集的ARM A53 CPU更是成为近几年最广泛应用的IP核,其他64位架构的ARM处理器也在日益增多,其中NEON在ARM64位架构相对ARM32提供了更多的寄存器,使其在计算中具有更高的计算效率。
随着大量嵌入式应用需求的不断增多,轻量级的神经网络结构也不断的被开发出来。这种轻量级的神经网络结构通常是将多维卷积分解为两次1X1卷积和一次深度可分离卷积,其中1X1的卷积计算与矩阵乘法计算基本一致,因此能够在计算精度略微下降的前提下,在计算量上降低几个数量级。目前一些大的公司都已经推出了开源的深度卷积计算框架,比如小米的MACE、阿里的MNN。然而现有的轻量级的神经网络结构都以GPU或DSP为主,在最广泛使用的CPU上应用时占用巨大的CPU资源,虽然CPU的计算能力变强,但在处理神经网络卷积时,计算时间相对GPU或DSP仍然很慢。
目前的卷积计算一般应用于深度计算引擎,并与各种训练模型结合,实现人体骨骼识别、物品识别、人员识别等。专利号为CN201810601486.2,专利名称为《一种基于单目视觉、从动作识别身份的方法》,其公开了基于卷积神经网络构建了人体骨骼关键点的检测模型,利用提取的人体骨骼点点坐标序列对基于LSTM的神经网路匹配模型进行训练,使得训练的基于LSTM的神经网路匹配模型具备跨视角的动作识别能力。在识别过程中,利用训练好的人体骨骼点二维坐标检测模型对单目视觉视频和已注册动作视频序列进行人体骨骼点二维坐标序列提取,再通过基于LSTM的神经网路匹配模型进行特征相似度计算,进而对测试的动作视频中人的身份进行识别,在跨视角动作识别时具有较高的准确度。该方法可被广泛应用与配备视频监控的场景,如:机场及超市的安全监控,人员识别,罪犯检测等。
发明内容
为此,需要提供一种卷积神经网络的加速方法,用于解决现有通过CPU处理卷积计算时,CPU资源占用大,计算效率低的技术问题。
为实现上述目的,发明人提供了一种卷积神经网络的加速方法,包括步骤:
计算1x1卷积的输入/输出数据的排序,使所述输入/输出数据在内存中按卷积时的访问顺序连续存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建星网视易信息系统有限公司,未经福建星网视易信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911335752.2/2.html,转载请声明来源钻瓜专利网。