[发明专利]一种深度学习作业的运行方法和装置在审
申请号: | 201810793520.0 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109086134A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 袁绍 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/455;G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 白天明;解婷婷 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 学习 方法和装置 硬件资源 映射 集群 接收用户 作业调度 推送 仓库 调度 创建 分配 | ||
本发明公开了一种深度学习作业的运行方法和装置,该方法包括:接收用户对于运行深度学习作业所需要的资源的选择以及对于提交深度学习作业的docker镜像的选择;根据计算节点的使用和负载情况来调度深度学习作业;当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的docker镜像,并且在集群中的各个计算节点上创建docker容器;将计算节点根据深度学习作业而分配的硬件资源映射到docker镜像,并且采用映射到docker镜像的硬件资源和docker容器来运行深度学习作业。通过上述方式,减少用户采用集群运行深度学习作业所花费的时间和精力。
技术领域
本发明涉及计算机集群系统,尤指一种深度学习作业的运行方法和装置。
背景技术
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。现在主流的深度学习框架包括tensorflow、caffe、pytorch、mxnet。集群是通过高性能网络或局部网将一组计算机系统互联而形成的具有单一系统映像的高性能、高可扩展性、高性能价格比的计算机集群系统。随着集群系统在科学计算、商业运营等方面的广泛应用,集群系统发挥的作用也越来越重要,逐渐成为上述领域中不可或缺的工具。当集群应用于深度学习时,由于深度学习需要执行大量的计算,因此需要集群系统具有大量的计算节点以提供大量的硬件资源(例如,GPU(Graphics Processing Unit,图形处理单元)资源)。但是集群系统节点数量庞大,难以统一调度提供硬件资源,因此集群的硬件资源的利用率低下,并且调度集群的节点的硬件资源会花费用户大量的时间和精力。此外,不同的深度学习框架的框架依赖是不同的,用户在模型训练之前为不同的深度学习框架配置不同的训练环境,这同样需要花费大量的时间和精力。
发明内容
为了解决上述技术问题,本发明提供了一种深度学习作业的运行方法和装置,其可以减少用户采用集群运行深度学习作业所花费的时间和精力。
为了实现上述目的,一方面,本发明的实施例提供了一种深度学习作业的运行方法,该方法包括:
接收用户对于运行深度学习作业所需要的资源的选择以及对于提交深度学习作业的docker镜像的选择;
根据计算节点的使用和负载情况来调度深度学习作业;
当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的docker镜像,并且在集群中的各个计算节点上创建docker容器;
将计算节点根据深度学习作业而分配的硬件资源映射到docker镜像,并且采用映射到docker镜像的硬件资源和docker容器来运行深度学习作业。
进一步地,在一个可选的实施例中,所需要的资源包括:
采用深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
进一步地,在一个可选的实施例中,集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
在采用映射到docker镜像的硬件资源和docker容器来运行深度学习作业的步骤之后,该方法还包括:
将采用深度学习作业训练的模型文件存储到计算节点,以使计算节点将模型文件共享到管理节点。
进一步地,在一个可选的实施例中,在集群中的各个计算节点上创建docker容器的步骤之后,该方法还包括:
采用覆盖网络工具flannel来配置集群。
为了实现上述目的,另一方面,本发明实施例提供了一种深度学习作业的运行装置,该装置包括:用户选择接收模块、作业调度模块、容器创建模块以及作业运行模块;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810793520.0/2.html,转载请声明来源钻瓜专利网。