[发明专利]适用于大规模并行计算的节点间容错通信系统及通信方法有效
申请号: | 202110666592.0 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113382431B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 郭勇良;刘力政;何璇;邹卓;胡晓明;郑立荣 | 申请(专利权)人: | 复旦大学 |
主分类号: | H04W24/04 | 分类号: | H04W24/04;H04W28/02 |
代理公司: | 北京沁优知识产权代理有限公司 11684 | 代理人: | 杨敏 |
地址: | 200000 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 大规模 并行 计算 节点 容错 通信 系统 方法 | ||
1.一种适用于大规模并行计算的节点间容错通信系统,其特征在于,包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输入端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系;
所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口;
所述AET簇包括四个节点,所述交叉开关组包括与所述AET簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端包括四个接入端,每一组输出信号端分别包括四个输出端,四个所述接入端用于连接两个节点中其中一个节点相应的四个输入端口,四个所述输出端用于连接两个节点中其余一个节点相应的四个输出端口。
2.根据权利要求1所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。
3.一种适用于大规模并行计算的节点间容错通信方法,应用于权利要求2所述的节点间容错通信系统,其特征在于,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0-7位用于存放需要传输的数据,8-12位为jump参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。
4.根据权利要求3所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。
5.根据权利要求4所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开关控制器发送其地址信息,并通过四个输出端口同时发送错误代码信息。
6.根据权利要求5所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述交叉开关控制器配置有故障识别策略,所述故障识别策略包括若干节点均通过Control端口按照固定时间周期向交叉开关控制器发送心跳信号,所述心跳信号包括所述节点的状态参数信息,所述故障识别策略配置为当交叉开关控制器超过固定时间周期未接收到来自所述节点的心跳信号时,认定所述节点处于故障状态;所述节点配置有休眠策略,所述休眠策略包括当所述节点的任一通讯端口输入错误代码信息时,所述节点的所有通讯端口均处于空闲状态,等待交叉开关组重新分配连接。
7.根据权利要求6所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述AET簇中的四个节点包括一个中间节点和三个边缘节点,三个所述边缘节点均以120度的夹角与所述中间节点相连接,所述交叉开关组配置有接线转换策略,所述接线转换策略包括当中间节点首先发生故障时,启动三个边缘节点的备份端口,并将边缘节点中连接中间节点的通讯端口和备份端口分别与其余两个边缘节点相连接;当一个边缘节点首先发生故障时,启动其余三个节点的备份端口,其中两个边缘节点的备份端口相互连接,中间节点的备份端口和连接故障节点的通讯端口分别和与故障节点相连接的其他AET簇中的节点相连。
8.根据权利要求7所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:当中间节点和一个边缘节点均发生故障时,启动其余两个边缘节点的备份端口,两个边缘节点的备份端口相互连接,并将两个边缘节点分别与中间节点相连的通讯端口与故障边缘节点相连接的其他AET簇中的节点相连;当中间节点和两个边缘节点均发生故障时,启动其余一个边缘节点的备份端口,所述边缘节点的两个剩余通讯端口分别与故障边缘节点相连接的其他两个AET簇中的两个节点相连;当两个边缘节点均发生故障时,启动其余节点的备份端口,其中一个边缘节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连,中间节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连;
当三个边缘节点均发生故障时,启动中间节点的备份端口,中间节点的其中两个通讯端口与其中一个故障边缘节点相连接的其他两个AET簇中的两个节点相连,另外两个通讯端口与分别与另外两个故障边缘节点的相连接的两个其他AET簇节点中的一个节点相连,并将其他AET簇中的两个节点相互连接;当所述节点均发生故障时,将所有与三个故障边缘节点相连接的其他AET簇中节点两两相连。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110666592.0/1.html,转载请声明来源钻瓜专利网。