[发明专利]一种神经网络处理器故障单元修复系统及方法在审
申请号: | 202210379344.2 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114896092A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 何添祺;王明羽;虞志益 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/00;G06N3/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 处理器 故障 单元 修复 系统 方法 | ||
本发明公开了一种神经网络处理器故障单元修复系统及方法。一种神经网络处理器故障单元修复系统包括:冗余计算阵列,用于进行第一计算生成第一计算结果;故障检测模块,用于根据所述第一计算结果检查第二计算结果是否出错;用于若是,则根据所述第二计算结果获取第一位置;地址控制模块,用于根据所述第一位置生成地址和控制信号;控制模块,用于根据所述地址和控制信号缓存所述第一计算结果,并设置第二单元代替所述第一单元进行所述第一计算。本发明实现了对神经网络处理器计算阵列中故障单元的及时定位和修复,提高了神经网络处理器的可靠性,可广泛应用于芯片技术领域。
技术领域
本申请涉及芯片技术领域,尤其是一种神经网络处理器故障单元修复系统及方法。
背景技术
神经网络处理器(Neural-network Processing Units,NPU)通常由大型的常规2D计算阵列和一组用于输入特征、输出特征和权重的片上缓冲区构成。2D计算阵列的可靠性牵动着整个加速器的可靠性。由于计算阵列中每个处理元素(Processing Element,PE)可用于计算不同网络层中的多个特征值,因此单个PE中的故障可能会在深度学习模型执行期间导致多个错误的计算结果。为了减少神经网络处理器的2D计算阵列中的硬件故障,研究人员主要从两个方面提出了容错设计方法。第一类容错设计方法主要通过训练针对故障计算阵列的神经网络模型来对神经网络模型进行固有的容错处理,无需对现有的神经网络处理器的硬件电路进行修改。然而,训练好的针对特定故障计算阵列的神经网络模型具有局限性,在面对不同的故障时需要重新进行模型训练;第二类容错设计方法的核心是利用冗余的PE来恢复故障PE。传统的冗余设计方法如双模冗余(Dual Modular Redundancy,DMR)和三模冗余(Triple Modular Redundancy,TMR)具有很高的可靠性,但是需要大量的硬件资源支持,从而提高了成本。此外,研究人员又提出了行、列、对角冗余的方法,与DMR和TMR相比,显著降低了硬件资源消耗,在故障PE分布均匀并且数量较少时能有效缓解2D计算阵列中的故障。然而,当故障PE在计算阵列中分布不均匀或者当故障PE的数量超过相应行、列中的冗余PE数量时,故障PE将无法被完全修复。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种神经网络处理器故障单元修复系统及方法,以实现对神经网络处理器计算阵列中故障单元的及时定位和修复,提高神经网络处理器的可靠性。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种神经网络处理器故障单元修复系统,包括:
冗余计算阵列,用于进行第一计算生成第一计算结果,所述第一计算为神经网络处理器执行计算时的中间计算;
故障检测模块,用于根据所述第一计算结果检查第二计算结果是否出错,所述第二计算结果为神经网络处理器的计算阵列进行所述第一计算得到的结果;用于若是,则根据所述第二计算结果获取第一位置,所述第一位置为第一单元的位置,所述第一单元为所述计算阵列中进行所述第一计算的处理元素单元;
地址控制模块,用于根据所述第一位置生成地址和控制信号;
控制模块,用于根据所述地址和控制信号缓存所述第一计算结果,并设置第二单元代替所述第一单元进行所述第一计算,所述第二单元为所述冗余计算阵列中进行所述第一计算的处理元素单元。
另外,根据本发明上述实施例的一种神经网络处理器故障单元修复系统,还可以具有以下附加的技术特征:
进一步地,本发明实施例的一种神经网络处理器故障单元修复系统中,所述冗余计算阵列与所述计算阵列以双核锁步状态工作。
进一步地,在本发明的一个实施例中,所述的一种神经网络处理器故障单元修复系统还包括故障列表,所述故障列表用于记录所述第一位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210379344.2/2.html,转载请声明来源钻瓜专利网。