[发明专利]通用型AI并行推理加速结构以及推理设备有效
申请号: | 202110399639.1 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113128688B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 范云潜;刘晨光;徐靖涵;张昊懿;康旺;潘彪 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/02 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 单晓双;叶明川 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用型 ai 并行 推理 加速 结构 以及 设备 | ||
本发明提供一种通用型AI并行推理加速结构以及推理设备,该结构包括:数据重排模块以及连接在所述数据重排模块输出端的向量处理模块;所述数据重排模块接收待处理数据、卷积神经网络模型参数,所述卷积神经网络模型参数包括:权重以及偏置,根据控制信号将所述待处理数据重排得到特征图向量,根据控制信号将所述权重重排得到权重向量,并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块;所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加,实现基于数据重排的内积运算,增强了计算的通用性,减少所需计算模块的类别,提升计算效率,实现卷积神经网络整体的推理加速。
技术领域
本发明涉及人工智能领域,尤其涉及一种通用型AI并行推理加速结构以及推理设备。
背景技术
近年来,以卷积神经网络为代表的深度学习技术与人工智能技术深入到人类社会的各个方面,在卷积神经网络中,最关键的是数据与算力,但是算法的训练基于大规模并行浮点运算,位于物联网终端一侧的推理设备由于计算、存储资源受限,算法的推理的时间空间复杂度给AI走向AIoT(人工智能物联网)带来了巨大的挑战。
举例来说,由于以往FPGA与特定的ASIC硬件设计多基于卷积的物理实现以及对应的优化,但是网络中全连接等操作也占据了相当的比重,而全连接的复用较少且这类硬件只能通过卷积模块来实现卷积核大小的全连接操作(卷积模式运算和全连接模式的运算参见图1),因此占据的资源大部分都被闲置,造成资源浪费与效率下降。
发明内容
针对现有技术中的问题,本发明提供一种通用型AI并行推理加速结构以及推理设备,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种通用型AI并行推理加速结构,包括:数据重排模块以及连接在所述数据重排模块输出端的向量处理模块;
所述数据重排模块接收待处理数据、卷积神经网络模型参数,所述卷积神经网络模型参数包括:权重以及偏置,根据控制信号将所述待处理数据重排得到特征图向量,根据控制信号将所述权重重排得到权重向量,并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块;
所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加。
进一步地,所述数据重排模块对数据进行分块重排。
进一步地,所述向量处理模块包括:内积运算单元、偏置单元;
所述内积运算单元的两个输入端分别接收所述权重向量以及所述特征图向量,输出端连接所述偏置单元的第一输入端,所述偏置单元第二输入端接收所述偏置。
进一步地,所述向量处理模块还包括:缓存单元;
所述缓存单元用于缓存所述特征图向量、所述权重向量以及所述偏置。
进一步地,所述向量处理模块还包括:累加器;
所述累加器的输入端连接所述偏置单元的输出端。
进一步地,通用型AI并行推理加速结构还包括:存储单元;
所述块存储单元的输出端连接所述数据重排模块的输入端,用于存储所述待处理数据、所述卷积神经网络模型参数,并将所述待处理数据、所述卷积神经网络模型参数传输至所述数据重排模块。
进一步地,通用型AI并行推理加速结构还包括:处理系统,所述处理系统包括CPU、内存、直接访存单元以及总线接口;
所述CPU、所述内存以及所述直接访存单元两两连接,所述直接访存单元的输出端连接所述接口,所述总线接口连接所述存储单元。
进一步地,通用型AI并行推理加速结构还包括:控制模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110399639.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:神经网络模型自动适配方法和装置
- 下一篇:一种干膜抗蚀剂