[发明专利]一种提高芯片计算性能的方法、系统、设备及介质有效
申请号: | 201911385640.8 | 申请日: | 2019-12-29 |
公开(公告)号: | CN111176731B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 李拓 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F13/28 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 芯片 计算 性能 方法 系统 设备 介质 | ||
本发明公开了一种提高芯片计算性能的方法、系统、设备和存储介质,方法包括以下步骤:通用处理器核心将计算任务分解成多个并行的子任务,并将多个子任务分配到并行控制阵列;并行控制阵列对多个子任务进行预处理,并将预处理后的子任务分配到与并行控制阵列对应的计算加速单元阵列;判断计算加速单元阵列中的每个计算单元是否能够处理所分配的子任务;以及响应于计算加速单元阵列中的计算单元不能够处理所分配的子任务,将子任务分配给其他的计算单元。本发明提出的提高芯片计算性能的方法、系统、设备及介质通过增加并行控制阵列进行数据预处理,计算加速单元阵列只进行专门的计算,提高了计算的性能。
技术领域
本发明涉及计算领域,更具体地,特别是指一种提高芯片计算性能的方法、系统、计算机设备及可读介质。
背景技术
作为AI(Artificial Intelligence,人工智能)计算加速的协处理器,最主流的就是GPU(Graphics Processing Unit,图形处理器),凭借集成上千并行计算核心,GPU能提供最强的AI计算性能。但GPU的问题在于价格和功耗。所以一些全定制化的AI芯片针对特定场景,对芯片架构进行定制化的优化设计,在对成本和功耗敏感的AI领域获得了应用。而半定制化(FPGA(Field Programmable Gate Array,现场可编程门阵列))的AI芯片,主要应用在一些实验性的领域,以及对性能要求不那么严苛的领域。
在各种AI处理中,各种深度学习算法的大规模并行计算需要加速器,这些计算的特点是单个计算并不十分复杂,但是并行度高,且为了提高效率,计算和中间结果存储的数据位宽往往是定制的和较小的(比如8位、16位)。正是因为这些特点,CPU这种单核比较复杂的通用型处理器在进行AI计算中效率很低。在AI加速芯片中集成单个或少数几个处理器核心的方案,往往需要考虑高昂的IP费用以及处理器核心本身带来的对芯片资源和面积的占用。但是这样的方案会存在比较难实现通用性的问题,即对不同应用场景不同规模算法的支持很难做到高效。
发明内容
有鉴于此,本发明实施例的目的在于提出一种提高芯片计算性能的方法、系统、计算机设备及计算机可读存储介质,通过增加并行控制阵列进行数据预处理,计算加速单元阵列只进行专门的计算,提高了计算的性能,另外,芯片架构充分考虑到了芯片的通用性,多核心灵活扩展的架构能在多种不同的场景需求下支持芯片的设计和扩展。
基于上述目的,本发明实施例的一方面提供了一种提高芯片计算性能的方法,包括如下步骤:通用处理器核心将计算任务分解成多个并行的子任务,并将多个所述子任务分配到并行控制阵列;所述并行控制阵列对多个所述子任务进行预处理,并将预处理后的子任务分配到与所述并行控制阵列对应的计算加速单元阵列;判断所述计算加速单元阵列中的每个计算单元是否能够处理所分配的子任务;以及响应于所述计算加速单元阵列中的计算单元不能够处理所分配的子任务,将所述子任务分配给其他的计算单元。
在一些实施方式中,还包括:响应于所述计算加速单元阵列中的计算单元能够处理所分配的子任务,将处理结果发送到内存或所述通用处理器核心。
在一些实施方式中,响应于所述计算加速单元阵列中的计算单元能够处理所分配的子任务,将处理结果发送到内存或所述通用处理器核心包括:判断所述子任务处理过程中产生的中间数据的量是否超过阈值;以及响应于所述子任务处理过程中产生的中间数据的量不超过阈值,将所述中间数据写入所述并行控制阵列的缓存。
在一些实施方式中,还包括:响应于所述子任务处理过程中产生的中间数据的量超过阈值,将所述超过阈值的中间数据写入所述计算加速单元阵列挂载的附加缓存中。
在一些实施方式中,响应于所述计算加速单元阵列中的计算单元能够处理所分配的子任务,将处理结果发送到内存或所述通用处理器核心包括:判断计算过程中的数据是否能够通过所述计算加速单元阵列的网络进行传输;以及响应于计算过程中的数据不能够通过所述计算加速单元阵列的网络进行传输,采用所述并行控制阵列中的处理器核心进行传输。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911385640.8/2.html,转载请声明来源钻瓜专利网。