[发明专利]模型推理的资源分配方法、装置、计算机设备和存储介质有效
申请号: | 202010062893.8 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111274034B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 陈可;董峰 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 张丽颖;李雪 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 推理 资源 分配 方法 装置 计算机 设备 存储 介质 | ||
1.一种模型推理的资源分配方法,其特征在于,所述方法包括:
获取加速板卡的数量,各个所述加速板卡上搭载有多个加速芯片;
获取待分配深度模型和所述待分配深度模型的各个计算层的时间开销;
根据各个所述计算层的时间开销,确定所述待分配深度模型拆分成多个目标子模型的模型拆分策略,每个所述加速板卡对应一个所述目标子模型,每个所述目标子模型的时间开销位于第一预设开销区间内;
根据各个所述计算层的时间开销,确定各个所述加速板卡的目标子模型拆分成与对应的各个所述加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个所述加速芯片对应一个所述目标子单元,每个所述目标子单元的时间开销位于第二预设开销区间内;
所述方法还包括:
获取每个所述加速板卡的资源和对应的所述目标子模型的需求计算资源;
根据每个所述加速板卡的资源和对应的所述目标子模型的需求资源,确定各个所述目标子模型进行拆分和/或合并的模型调整策略,以使按照拆分和/或合并后得到的每个所述加速板卡的目标子模型的资源开销小于或等于对应的所述加速板卡的资源上限。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销;
根据每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销,确定各个所述目标子模型进行拆分和/或合并的模型调整策略,以使执行拆分和/或合并后得到的每个所述加速板卡的目标子模型时所需的传输开销小于或等于对应的所述加速板卡的预设传输开销上限。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的资源和对应的所述目标子模型的需求资源;
根据每个所述加速板卡上的芯片的资源和对应的所述目标子单元的需求资源,确定对各个所述目标子单元进行拆分和/或合并的单元调整策略,以使拆分和/或合并后得到的每个所述加速板卡的芯片的目标子单元的资源小于或等于对应的所述加速板卡的芯片的资源上限。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销;
根据每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销,确定各个所述目标子单元进行拆分和/或合并的单元调整策略,以使每个所述加速板卡的芯片的传输开销小于或等于对应的所述目标子单元的传输开销。
5.根据权利要求2所述的方法,其特征在于,所述模型调整策略,包括:
判断当前板卡对应的模型的资源或传输开销是否符合所述当前板卡的资源或传输开销;
当所述当前板卡对应的模型的资源或传输开销不符合所述当前板卡的资源或传输开销时,将所述当前板卡对应的模型进行拆分,得到第一子模型和第二子模型,以使所述第一子模型符合所述当前板卡的资源或传输开销;
合并所述第二子模型和所述当前板卡的相邻的下一板卡的模型,得到合并模型;
将所述下一板卡作为所述当前板卡,判断当前板卡对应的所述合并模型对应的资源或传输开销是否符合所述当前板卡的资源或传输开销。
6.根据权利要求5所述的方法,其特征在于,所述将所述当前板卡对应的模型进行拆分,得到第一子模型和第二子模型,包括:
对所述当前板卡对应的模型中的计算层,按照连接顺序从位于末端的计算层进行拆分,将末端拆分出来的计算层作为所述第二子模型,剩余的计算层作为所述第一子模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010062893.8/1.html,转载请声明来源钻瓜专利网。