[发明专利]资源配置方法、模型训练方法及装置在审
| 申请号: | 202210311635.8 | 申请日: | 2022-03-28 |
| 公开(公告)号: | CN114625541A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 杨天 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08;G06T1/20 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吕俊秀 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 资源配置 方法 模型 训练 装置 | ||
本申请实施例提供了一种资源配置方法、模型训练方法及装置。所述资源配置方法包括:获取神经网络模型的模型参数,及图形处理器对应的目标数量;获取与所述模型参数和所述目标数量匹配的目标图形处理器;根据所述目标图形处理器对应的配置信息,确定所述目标图形处理器之间的参数更新模式;基于所述目标图形处理器和所述参数更新模式,确定所述神经网络模型的资源配置信息。本申请实施例可以提高深度学习模型的训练及推理效率。
技术领域
本申请涉及资源配置技术领域,特别是涉及一种资源配置方法、模型训练方法及装置。
背景技术
GPU(Graphics Processing Unit,图形处理器)具有强大的矩阵计算与并行性能,在计算机视觉、自然语言处理与内容推荐等深度学习领域有着广泛的使用。
随着深度学习技术的飞速发展,深度学习模型的网络结构也越来越复杂,随着参数规模的大幅增长,其训练与推理需要使用大规模分布式GPU集群来进行。在进行深度学习模型的训练过程中,GPU之间需要进行大量的数据传递。而现有技术方案中,并未充分考虑各GPU间通信传输异构的情况,导致模型训练或推理的效率相对较低。
发明内容
本申请实施例的目的在于提供一种资源配置方法、模型训练方法及装置,以实现针对不同的深度学习模型与通信网络配置参数更新模式,提高深度模型的训练和推理效率。具体技术方案如下:
在本申请实施的第一方面,首先提供了一种资源配置方法,包括:
获取神经网络模型的模型参数,及图形处理器对应的目标数量;
获取与所述模型参数和所述目标数量匹配的目标图形处理器;
根据所述目标图形处理器对应的配置信息,确定所述目标图形处理器之间的参数更新模式;
基于所述目标图形处理器和所述参数更新模式,确定所述神经网络模型的资源配置信息。
可选地,所述获取与所述模型参数和所述目标数量匹配的目标图形处理器,包括:
获取与所述模型参数匹配的第一数量的初始图形处理器;所述第一数量大于或者等于所述目标数量;
根据所述初始图形处理器的资源数据,从所述初始图形处理器中筛选出所述目标数量的目标图形处理器。
可选地,所述根据所述初始图形处理器的资源数据,从所述初始图形处理器中筛选出所述目标数量的目标图形处理器,包括:
根据所述资源数据,从所述初始图形处理器中筛选出可用资源数据大于设定数据阈值的第二数量的图形处理器;
在所述第二数量大于所述目标数量的情况下,按照所述使用频率由高到低的顺序,从所述第二数量的图形处理器中筛选出目标数量的目标图形处理器。
可选地,所述根据所述目标图形处理器对应的配置信息,确定所述目标图形处理器之间的参数更新模式,包括:
获取所述目标图形处理器的节点类型,及所述目标图形处理器之间的节点带宽;
根据所述节点类型、所述节点带宽和所述目标数量,确定所述目标图形处理器之间的参数更新模式。
在本申请实施的第二方面,提供了一种模型训练方法,包括:
获取待训练的神经网络模型的资源配置信息;
根据所述资源配置信息,确定所述神经网络模型对应的目标图形处理器和参数更新模式;
获取训练样本数据;
在对所述神经网络模型进行训练的过程中,基于所述目标图形处理器传输所述训练样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311635.8/2.html,转载请声明来源钻瓜专利网。





