[发明专利]混合专家模型训练的性能优化方法和装置在审

申请号：	202210071043.3	申请日：	2022-01-21
公开（公告）号：	CN114429195A	公开（公告）日：	2022-05-03
发明（设计）人：	翟季冬;何家傲	申请（专利权）人：	清华大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	赵平;崔博
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混合专家模型训练性能优化方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种混合专家模型训练的性能优化方法和装置，涉及神经网络技术领域，所述方法包括：在一次迭代计算前，对于所述混合专家模型中所有专家中的每一个，判定当前专家是否被设置为影子专家，若是，将当前专家添加至影子专家集合，继续判定下一个专家是否被设置为影子专家直至所有专家被判定完成。本发明能够提高混合专家模型的训练速度和效率，减少混合专家模型在训练时所耗费的资源。

技术领域

本发明涉及神经网络技术领域，尤其涉及一种混合专家模型训练的性能优化方法和装置。

背景技术

对于神经网络中的混合专家模型，现有的训练方式主要有Zero Optimizer、Gshard和FastMoE等方式。但是，这些主流的训练方式在混合专家模型的训练过程中需要耗费大量的时间，而且也需要耗费较多的计算资源和电能，在速度和效率上还有进步的空间。因此，有必要提出一种混合专家模型训练的性能优化方法，以提高混合专家模型的训练速度和效率，减少混合专家模型在训练时所耗费的资源，进而使混合专家模型在训练时能够更快地收敛至稳定状态，尽早投入到实际应用中。

发明内容

本发明的一个目的在于提供一种混合专家模型训练的性能优化方法，以解决混合专家模型的训练过程耗费大量时间、计算资源和电能的问题。本发明的另一个目的在于提供一种混合专家模型训练的性能优化装置。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。

为了达到以上目的，本发明一方面公开了一种混合专家模型训练的性能优化方法，所述方法包括：

在一次迭代计算前，对于所述混合专家模型中所有专家中的每一个，判定当前专家是否被设置为影子专家，若是，将当前专家添加至影子专家集合，继续判定下一个专家是否被设置为影子专家直至所有专家被判定完成；

所述判定当前专家是否被设置为影子专家具体包括：

计算基于当前影子专家集合的混合专家模型迭代计算的第一总延迟时间；

计算将所述当前专家添加至所述影子专家集合后基于当前影子专家集合的混合专家模型迭代计算的第二总延迟时间；

根据所述第一总延迟时间和第二总延迟时间，判定是否将所述当前专家设置为影子专家。

可选的，所述计算基于当前影子专家集合的混合专家模型迭代计算的第一总延迟时间，包括：

获取所述基于当前影子专家集合的混合专家模型中的每个服务器在所述迭代计算中的第一计算时间和第一通信时间；

根据所述基于当前影子专家集合的混合专家模型中的每个服务器在所述迭代计算中的第一计算时间和第一通信时间，得到所述每个服务器在所述迭代计算中的第一延迟时间；

在所述每个服务器在所述迭代计算中的第一延迟时间中，选取所述第一延迟时间中的最大值作为所述第一总延迟时间。