[发明专利]基于服务质量需求的深度学习任务资源优化配置方法及系统有效
| 申请号: | 202110411709.0 | 申请日: | 2021-04-16 |
| 公开(公告)号: | CN113157413B | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 钱诗友;华勤;曹健;薛广涛 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06K9/62 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 服务质量 需求 深度 学习 任务 资源 优化 配置 方法 系统 | ||
本发明提供了一种基于服务质量需求的深度学习任务资源优化配置方法及系统,包括:基于深度学习任务模型的本质特征,建立参数服务器资源峰值需求预测模型和工作节点资源峰值需求预测模型;根据参数服务器资源峰值和工作节点资源峰值需求建立深度学习任务迭代时间预测模型;预设最大迭代次数,根据预测的深度学习任务迭代时间,得到基于预测的资源峰值配置下运行1台参数服务器和1台工作节点的任务结束时间;根据预设服务质量要求,预测任务在截止日期前完成所需的工作节点数量和参数服务器数量;在深度学习任务调度执行时,定量估计集群可用资源状况,并根据可用资源状况对预测任务在截止日期前完成所需的工作节点数量和参数服务器数量进行微调。
技术领域
本发明涉及分布式系统,容器系统,深度学习,数据挖掘等技术领域,具体地,涉及基于服务质量需求的深度学习任务资源优化配置方法及系统,更为具体地,涉及基于用户QoS需求与深度学习训练任务特征的容器初始资源配置方法。
背景技术
随着当前生产环境中以深度学习为代表的人工智能技术的广泛普及,深度学习在诸如图像识别、自然语言处理、数据挖掘领域的应用日趋成熟。随着深度学习模型复杂性的上升,深度学习模型训练任务的资源密集性和时间消耗性不断增强,这意味着深度学习对计算资源(CPU,GPU,内存)的需求不断增长,训练任务的生命周期(数天至数周)不断延长。因此,分布式深度学习任务的集群化部署成为了当前深度学习训练任务实际应用的必然趋势。容器化和云原生作当前集群的发展趋势之一,深度学习任务的容器化部署成为了集群化部署的合理方式之一。
然而,相对于深度学习任务为应用领域带来的智能化,深度学习训练任务(DeepLearn Training Job,DLT Job)作为一类批处理任务在集群平台中的任务调度的智能化水平仍较低,甚至需要用户根据自身先验知识进行手动的资源配置。这种不合理的资源配置方案会带来两个主要的缺陷:(1)对于内存等不可伸缩的硬性资源在低配置(under-provision),即分配资源不足的情况下,深度学习训练任务可能因为资源不足,例如出现OOM(Out Of Memory)错误而导致任务失败;(2)用户手动配置时为了防止任务失败,倾向于为任务配置过多的且不必要的资源,即过配置(over-provision),这种不合理的配置方式造成了资源效率的降低,并进一步影响了集群整体的并行度。
当前流行的集群调度器,诸如用于Apache Hadoop和Spark的Yarn,以及用于Kubernetes的调度器,往往将深度学习训练任务视作普通的批处理任务,而忽略了深度学习任务自身的特点,诸如资源的迭代性,训练过程的收敛性;同时,当前的主流调度器在进行深度学习训练任务的资源配置时忽略了用户对于深度学习训练任务的QoS需求,例如用户的期望训练截止时间(deadline)和模型精度。上述的集群资源配置方案的限制为本发明的研究提供了思路与方向。
本发明基于分布式深度学习当前通用的参数服务器(简称PS)架构模式和数据并行式的训练模式,即对于分布式深度学习任务,分为参数服务器与工作节点两种类型的任务节点,参数服务器负责聚合、同步各工作节点的梯度数据并向各工作节点反馈平均梯度而各工作节点则利用不同的数据独立地求解整个模型各参数上的局部梯度。
本发明提出的深度学习资源配置方案充分考虑了深度学习任务的QoS需求和深度学习任务的特征。针对深度学习任务中各参数服务器节点和各工作节点的资源需求,首先,本发明在前期数据采集过程中总结了深度学习任务的资源需求迭代性,以确定分布式深度学习任务中参数服务器节点与工作节点的实际资源需求;其次,本发明归纳了深度学习任务模型与资源需求相关的通用特征以构建深度学习任务资源需求的回归模型。针对深度学习任务中参数服务器和工作节点的数量需求,首先,我们利用深度学习任务的迭代性,构建深度学习迭代周期与资源分配状况、集群资源状况的回归模型以预测单次批迭代周期,其次,我们利用采集的数据信息确定了参数服务器与工作节点的合理比例,最后,考虑用户的QoS要求,特别是任务的预期截止时间(deadline)要求,我们合理的估计出恰好满足deadline要求的工作节点和参数服务器节点数量。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110411709.0/2.html,转载请声明来源钻瓜专利网。





