[发明专利]基于LRU策略最大化提升显存利用率的模型加载方法在审
申请号: | 202111001401.5 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113674137A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 钟靖;吴小炎;吴名朝 | 申请(专利权)人: | 浩鲸云计算科技股份有限公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06K9/00;G06F9/50 |
代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lru 策略 最大化 提升 显存 利用率 模型 加载 方法 | ||
1.基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,该方法包括以下步骤:
构建与部署人脸识别、人像对比、人体分析三个模型并配置实例;
启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率;
通过最优资源调度策略调度计算滑动平均显存使用率;
根据该段时间内的数据信息,通过最优资源调度策略预测得到下一段时间所需的实例数量;
根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整;
通过最优资源调度策略最终实现显存利用率的最大化。
2.根据权利要求1所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述构建与部署人脸识别、人像对比、人体分析三个模型并配置实例包括以下步骤:
通过AI平台配置人脸识别、人像对比、人体分析三个模型能力;
给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例;
将人脸识别、人像对比、人体分析三个模型配置到同一显卡;
通过容器管理平台部署启动人脸识别、人像对比、人体分析三个模型。
3.根据权利要求2所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率包括以下步骤:
启动定时任务,每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率;
将获取的GPU实时利用率存入,供后面最优资源调度策略调度使用;
最优资源调度策略调度中心循环从远程字典服务获取某段时间数据,对该段时间内的GPU实时利用率进行采样,通过计算得到该段时间内的平均GPU利用率。
4.根据权利要求3所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率包括以下步骤:
分别获取三个模型在第一时间段内、第二时间段内分析的图片数量;
分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量,进行计算得到GPU实时资源利用率。
5.根据权利要求4所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述计算得到GPU实时资源利用率的公式如下:
;
其中,A表示GPU的实时资源利用率,i,j分别第一时间段、第二时间段,且ij,Ci表示模型在第一时间段内分析的图片数量,Cj表示模型在第二时间段内分析的图片j数量,M表示模型在1秒钟所能分析的最大图片数量。
6.根据权利要求5所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过计算得到该段时间内的平均GPU利用率的计算公式如下:
;
其中,表示平均GPU利用率,I表示一段时间内实时GPU实时利用率的采样次数,J表示模型运行实例数量。
7.根据权利要求6所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过最优资源调度策略调度计算滑动平均显存使用率的计算公式如下:
;
其中,为模型在 t时段的滑动平均显存使用率,为模型在 t时段的平均GPU利用率,且在不使用滑动平均模型时 =,β为0-1的加权随机数,上述公式中β设定为0.9;
且上述公式可展开如下:
;
将时间t到1各个时刻的使用率填入公式,即可计算出Ut在t到1时刻的滑动平均显存使用率。
8.根据权利要求7所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。
9.根据权利要求8所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过最优资源调度策略预测得到下一段时间所需的实例数量的计算公式如下:
;
其中,Z表示模型下一段时间所需的实例数量,表示滑动平均显存使用率,Zo为模型已使用的pod数量,pmax表示最大利用率,pmin表示最小利用率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浩鲸云计算科技股份有限公司,未经浩鲸云计算科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111001401.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维重建方法及系统
- 下一篇:一种酶解生活厨余垃圾的垃圾处理方法