[发明专利]一种任务训练方法、装置、设备及存储介质在审

申请号：	202210332855.9	申请日：	2022-03-31
公开（公告）号：	CN114647488A	公开（公告）日：	2022-06-21
发明（设计）人：	王德奎;陈培	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F9/455	分类号：	G06F9/455;H04L12/02
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	吕鑫
地址：	215100 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种任务训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种任务训练方法、装置、设备及存储介质，包括：对人工智能服务器的多个物理网卡分别进行虚拟化处理，以得到多个虚拟网卡；其中，每个所述物理网卡与对应的所述虚拟网卡之间存在虚拟关系；对全部的所述虚拟网卡进行分组，以得到不同的资源组；其中，每个所述资源组中所述虚拟网卡与所述物理网卡之间的虚拟关系不重复；利用目标资源组中的所述虚拟网卡为所述人工智能服务器上的目标任务提供网络资源，以对所述目标任务进行训练。本申请在训练过程中，当资源组中的任一网卡异常时，可以利用资源组中其他无异常网卡继续提供网络资源，从而将高性能网卡合理的分配给训练任务的同时实现高性能网卡复用，提高任务训练效率。

技术领域

本发明涉及人工智能技术领域，特别涉及一种任务训练方法、装置、设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)训练场景中，会存在大量的数据传输，受限于传统的操作系统接收与发送网络数据包机制的限制，无法满足训练任务大量数据集下载、巨量训练参数传递的需求，为此大量AI训练平台逐渐开始支持高性能网络，例如Infiniband、Roce等。现有技术中，当AI服务器存在多个GPU卡时，为了获得最优的训练效果，有时单台AI服务器会搭载2个、4个、8个ROCE网卡或Infiniband网卡。对于传统的CPU服务器，为了保证网卡的稳定可靠，通常会使用bond技术，将两个以太网网卡进行bond，做一定的冗余，在一个以太网网卡异常时，不影响业务的正常运行。但是对于AI服务器中的Roce网卡、Infiniband网卡，由于存在无法进行bond以及资源浪费的场景，一般不将两个高性能网卡进行bond，当高性能网卡异常时，无法保证训练任务正常运行。

因此，如何进行网卡分配以提高任务训练效率是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种任务训练方法、装置、设备及存储介质，能够将高性能网卡合理的分配给训练任务的同时实现高性能网卡复用，提高任务训练效率。其具体方案如下：

本申请的第一方面提供了一种任务训练方法，包括：

对人工智能服务器的多个物理网卡分别进行虚拟化处理，以得到多个虚拟网卡；其中，每个所述物理网卡与对应的所述虚拟网卡之间存在虚拟关系；

对全部的所述虚拟网卡进行分组，以得到不同的资源组；其中，每个所述资源组中所述虚拟网卡与所述物理网卡之间的虚拟关系不重复；

利用目标资源组中的所述虚拟网卡为所述人工智能服务器上的目标任务提供网络资源，以对所述目标任务进行训练。

可选的，对人工智能服务器的多个物理网卡分别进行虚拟化处理，包括：

控制所述人工智能服务器进入基本输入输出系统以开启支持直接输入/输出访问的虚拟化技术的第一选项；

在所述人工智能服务器中安装网卡驱动并开启所述人工智能服务器的持直接输入/输出访问的虚拟化技术的第二选项，以将所述人工智能服务器的多个所述物理网卡分别进行虚拟化处理。

可选的，所述任务训练方法，还包括：

将每个所述物理网卡与对应的所述虚拟网卡之间的虚拟关系以及所述资源组上报至容器编排平台，以通过容器编排平台对所述资源组进行分配。