[发明专利]一种面向分布式并行运算类算法的片上网络设计方法在审
申请号: | 202210174904.0 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114844757A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 黄乐天;邓子阳 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | H04L41/04 | 分类号: | H04L41/04;H04L49/109;H04L67/1074 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 郭美 |
地址: | 313000 浙江省湖州市西塞*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分布式 并行 运算 算法 网络 设计 方法 | ||
本发明涉及计算机算法技术领域,尤其涉及一种面向分布式并行运算类算法的片上网络设计方法,根据片上网络分布式并行计算类算法,将该片上网络分为双层,包括单播网络和多播网络,单播网络实现各节点之间的点对点传播,将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点;多播网络为面向分布式并行计算类算法的定制多播网络,用于向所有运算节点传输共有运算数据,通过单播网络和多播网络的结合实现网络中数据包的高效传输,通过设计面向分布式并行计算类算法的多播树状传输架构,在每个运算节点设置二向复制节点或接收节点,这种架构区别于传统多播片上网络中每个节点都具有多播发送和接收模块,最大限度地减少片上资源的使用。
技术领域
本发明涉及计算机算法技术领域,尤其涉及一种面向分布式并行运算类算法的片上网络设计方法。
背景技术
分布式并行运算广泛存在于各类深度学习、目标跟踪类算法中.分布式并行计算其可以定义为进行一系列运算步骤相同且计算过程中不同计算数据间无数据依赖且可以并行执行的算法。比较典型的分布式运算包括两坐标向量间距离运算、各类矩阵乘法、深度学习算法中的卷积运算等。
分布式并行运算的特点在于运算稠密且去中心化,各数据间运算独立,这类运算在当今的通用处理器(CPU)和通用图形处理器(GPGPU)由于涉及大量运算,实际运算效率很低,因此本专利设计了针对此类运算的片上网络架构,采用定制化硬件加速的形式对此类算法进行加速。
针对分布式并行运算设计硬件加速器,最通常的方法就是使用多个运算单元并每个单元负责一部分运算,所有单元一起并行运算,再将最终的结果整合到一起。然而这种方法带来的最大问题就是在计算结果整合并存储到存储单元的过程中由于运算单元个数数目较多导致在结果存储时存储单元控制信号的译码、选择组合逻辑过大,时序较差。这会影响最高频率的时钟,从而降低整体的性能。
针对多运算单元的并行运算组合逻辑延迟过大这个问题,业内常采用片上网络而非总线、交换矩阵的方式进行各运算单元间的互联,网络化的通信结构在片上众核系统中相比于总线具有多方优势:它能够支持并发数据传输,拥有更易于扩展的拓扑结构,具有更大的通信带宽。网络化的通信结构还提供了丰富的冗余资源,其在可靠性设计上具有更多的选择。片上网络作为网络化通信结构代表被广泛关注和应用。图1为片上网络常见的2D-Mesh结构,其主要由路由器、链路、网络接口组成,其中处理单元可以由存储器接口、通用处理器、硬件加速单元、IO口等组成。
片上网络间传输主要通过收发包的形式,路由器是片上网络主要的组件,它主要负责数据包的暂存和定向,可以理解为网络中数据传输的中转站。链路将片上网络的各个组件连接成一个连通的网络,其通过上游路由器输出寄存级和下游路由器输入缓存器的连接来实现收发包。网络接口负责将处理单元的数据打包发送和将路由器发来的包拆解后发送给处理单元。
片上网络的数据包由一个源节点发出,其目的节点可能有一个或多个,当目的节点只有一个称为单播,有多个则称为多播。由于多播数据包需要保存多个目的节点位置,其数据包格式相比于单播数据包格式更为复杂,目前常见的多播策略包括以单播形式进行多播操作,即依次向多个目标节点发送单播数据包,但这种方案实现简单但带来的问题就是会极大的增加网络流量。另一种方式被称为虚拟电路多播树(VCTM),其在每个路由表上都增加了一个路由表,在每次多播开始前用单播形式将该次多播的配置包发送到对应节点的路由表上,发送多播包的时候会根据路由表的对应相同索引ID来配置分叉方向以及路由器是否分叉通过。这类通用性的多播网络带来的问题就是会增加网络中的包负载,并且会极大增加片上网络的布线资源消耗。
目前的通用处理器(CPU)和通用图像处理器(GPGPU)都难以满足分布式并行计算类算法的实时性要求。因此我们需要针对该算法的特点,设计了定制化的硬件。
本申请通过设计了面向此类算法的定制化片上网络解决了传统包含多运算单元的硬件加速器因总线互联组合逻辑延迟过大带来的时钟频率较低的问题,同时还解决了通用片上网络单播和多播共用一个网络导致的网络通信效率低下、网络耗费硬件资源多等问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210174904.0/2.html,转载请声明来源钻瓜专利网。