[发明专利]网络模型训练方法、装置、电子设备及可读存储介质有效

申请号：	202110971264.1	申请日：	2021-08-24
公开（公告）号：	CN113420880B	公开（公告）日：	2021-11-19
发明（设计）人：	周镇镇;李峰;刘红丽;张潇澜	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张雪娇
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络模型训练方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种网络模型训练方法、装置、电子设备及计算机可读存储介质，该方法包括获取训练数据，并将训练数据输入初始模型，得到输出数据；其中，初始模型包括嵌入层，嵌入层基于预设网络层延迟信息构建，预设网络层延迟信息包括相互对应的网络层类型和至少两类延迟数据，各类延迟数据对应于不同的设备类型；将当前设备类型、初始模型中目标网络层的目标网络层类型输入嵌入层，得到其他设备类型对应的目标延迟数据；利用目标延迟数据、训练数据和输出数据计算目标损失值，并利用目标损失值对初始模型进行参数调节；若满足训练完成条件，则基于初始模型得到目标模型；该方法使得目标模型在其他设备类型对应的设备上运行时具有最小的延迟。

技术领域

本申请涉及计算机技术领域，特别涉及一种网络模型训练方法、网络模型训练装置、电子设备及计算机可读存储介质。

背景技术

当前，为了提高网络模型的训练速度，网络模型通常在服务器等计算能力强的电子设备上构建和训练，在训练完毕后将其发送至手机、个人电脑等终端设备上运行；或者根据需要指定在一种设备上训练，在另一种设备上执行。由于服务器设备与终端设备对于同一类型的网络层的计算能力不同，因此同一个网络中各个的网络层在不同种类的设备上的执行延迟通常不同，这使得在一种设备上训练好的网络模型在另一种设备上运行时延迟较大。

发明内容

有鉴于此，本申请的目的在于提供一种网络模型训练方法、网络模型训练装置、电子设备及计算机可读存储介质，使得最终训练得到的目标模型在其他设备类型对应的设备上运行时具有最小的延迟。

为解决上述技术问题，本申请提供了一种网络模型训练方法，包括：

获取训练数据，并将所述训练数据输入初始模型，得到输出数据；

其中，所述初始模型包括嵌入层，所述嵌入层基于预设网络层延迟信息构建，所述预设网络层延迟信息包括相互对应的网络层类型和至少两类延迟数据，各类所述延迟数据对应于不同的设备类型；

将当前设备类型、所述初始模型中目标网络层的目标网络层类型输入所述嵌入层，得到其他设备类型对应的目标延迟数据；

利用所述目标延迟数据、所述训练数据和所述输出数据计算目标损失值，并利用所述目标损失值对所述初始模型进行参数调节；

若满足训练完成条件，则基于所述初始模型得到目标模型。

可选地，所述预设网络层延迟信息的生成过程，包括：

确定若干个网络层，以及具有各个所述网络层的若干个预设网络模型；

将各个所述预设网络模型在各个所述设备类型对应的设备上进行训练，得到各个所述设备类型对应第一延迟数据；

利用所述第一延迟数据得到与所述网络层对应的第二延迟数据；