[发明专利]基于服务质量需求的深度学习任务资源优化配置方法及系统有效
| 申请号: | 202110411709.0 | 申请日: | 2021-04-16 |
| 公开(公告)号: | CN113157413B | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 钱诗友;华勤;曹健;薛广涛 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06K9/62 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 服务质量 需求 深度 学习 任务 资源 优化 配置 方法 系统 | ||
1.一种基于服务质量需求的深度学习任务资源优化配置方法,其特征在于,包括:
步骤S1:基于深度学习任务模型的本质特征,包括批规模,浮点数运算规模以及深度学习任务模型的参数量,建立参数服务器资源峰值需求预测模型和工作节点资源峰值需求预测模型,得到深度学习任务的参数服务器资源峰值及工作节点资源峰值;
步骤S2:根据参数服务器资源峰值和工作节点资源峰值需求建立深度学习任务迭代时间预测模型;
步骤S3:预设最大迭代次数,根据预测的深度学习任务迭代时间,得到基于预测的资源峰值配置下运行单个参数服务器和单个工作节点的任务结束时间;
步骤S4:根据预设服务质量要求,包括达到预设精度、截止日期和最大迭代次数,预测任务在截止日期前完成所需的工作节点数量和参数服务器数量;
步骤S5:在深度学习任务调度执行时,定量估计集群可用资源状况,并根据集群的当前可用资源状况对预测任务在截止日期前完成所需的工作节点数量和参数服务器数量进行微调,得到微调后的工作节点数量和参数服务器数量,实现系统资源利用率和用户服务质量之间的权衡。
2.根据权利要求1所述的基于服务质量需求的深度学习任务资源优化配置方法,其特征在于,所述步骤S1中参数服务器资源峰值需求预测模型包括:最小二乘回归模型,具体表达式如下:
其中,parami表示深度学习任务模型中参数的数量;下标i表示第i个任务;kj,εj分别表示最小二乘回归模型中待训练的参数;下标j表示资源类型;表示深度学习任务τi的每个参数服务器节点对于资源类型j∈J预测的资源需求;J表示资源类型列表。
3.根据权利要求1所述的基于服务质量需求的深度学习任务资源优化配置方法,其特征在于,所述步骤S1中工作节点资源峰值需求预测模型包括:根据采集的深度学习训练任务运行数据集,使用深度学习任务模型的批规模、浮点数运算量以及深度学习任务模型参数量构建梯度下降树预测模型;
所述梯度下降树预测模型包括:
其中,y表示实际的资源需求表示梯度下降树预测模型的预测结果ρ表示相应学习率;K表示样本总量;下标k表示采集样本编号;M表示模型中回归树的数量;E()表示期望;
所述梯度下降树预测模型训练的损失函数采用MSE损失函数表示:
4.根据权利要求1所述的基于服务质量需求的深度学习任务资源优化配置方法,其特征在于,所述步骤S2中深度学习任务迭代时间预测模型包括:根据参数服务器资源峰值和工作节点资源峰值需求建立深度学习任务迭代时间预测模型;利用任务发布时的系统可用资源状况,深度学习模型特征,参数服务器和工作节点实际资源分配状况训练随机森林模型来预测任务τi发布时单个批迭代的所需时间
5.根据权利要求1所述的基于服务质量需求的深度学习任务资源优化配置方法,其特征在于,所述步骤S4中工作节点数量包括:
其中,表示预测任务τi每个批迭代的所需时间;上标I表示迭代时间;t表示当前的时刻;di表示任务τi的截止日期;Ii表示任务τi的最大迭代次数,下标i表示第i个任务;
所述参数服务器数量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110411709.0/1.html,转载请声明来源钻瓜专利网。





