[发明专利]模型训练及任务处理方法、装置、系统、设备及存储介质在审
申请号: | 202211468938.7 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115759229A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 沈力;戴嵘;陶大程 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/082;G06N20/00;G06F18/214;G06N3/0464 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 杨义 |
地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 任务 处理 方法 装置 系统 设备 存储 介质 | ||
1.一种模型训练方法,其特征在于,所述模型训练方法应用于分布式集群中的本地设备,所述分布式集群中还包括其他设备,所述模型训练方法包括:
获取所述其他设备上一轮训练得到的目标任务处理模型;
根据所述其他设备上一轮训练得到的目标任务处理模型和所述本地设备上一轮训练得到的目标任务处理模型确定所述本地设备本轮训练的初始任务处理模型;
确定所述初始任务处理模型的各个模型参数处的当前梯度,并确定所述本地设备本轮训练的掩码向量;
基于所述掩码向量从所述各个模型参数中确定出所述本地设备本轮训练需要更新的模型参数,得到目标参数;
根据所述初始任务处理模型的所述目标参数处的当前梯度更新所述目标参数,得到所述本地设备本轮训练的目标任务处理模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述确定所述本地设备本轮训练的掩码向量,包括:
从所述各个模型参数中确定出本轮公开参数和本轮屏蔽参数,所述本轮公开参数为所述本地设备本轮训练需要公开的模型参数,所述本轮屏蔽参数为所述本地设备本轮训练需要屏蔽的模型参数;
基于所述本轮公开参数和所述本轮屏蔽参数确定所述本地设备本轮训练的掩码向量。
3.根据权利要求2所述的模型训练方法,其特征在于,所述从所述各个模型参数中确定出本轮公开参数和本轮屏蔽参数,包括:
确定所述本地设备本轮训练的剪枝率;
从所述各个模型参数中确定上轮公开参数和上轮屏蔽参数,所述上轮公开参数为所述本地设备上一轮训练需要公开的模型参数,所述上轮屏蔽参数为所述本地设备上一轮训练需要屏蔽的模型参数;
基于所述剪枝率从所述上轮公开参数和所述上轮屏蔽参数中确定出所述本轮公开参数,并基于所述剪枝率从所述上轮公开参数和所述上轮屏蔽参数中确定出所述本轮屏蔽参数。
4.根据权利要求3所述的模型训练方法,其特征在于,所述基于所述剪枝率从所述上轮公开参数和所述上轮屏蔽参数中确定出所述本轮公开参数,并基于所述剪枝率从所述上轮公开参数和所述上轮屏蔽参数中确定出所述本轮屏蔽参数,包括:
基于所述剪枝率确定剪枝数量和复原数量;
基于所述上轮公开参数的当前值和所述剪枝数量从所述上轮公开参数中确定出第一状态变更参数和剩余公开参数;
基于所述上轮屏蔽参数处的当前梯度和所述复原数量从所述上轮屏蔽参数中确定出第二状态变更参数和剩余屏蔽参数;
基于所述第一状态变更参数、所述剩余公开参数、所述第二状态变更参数和所述剩余屏蔽参数确定所述本轮公开参数和所述本轮屏蔽参数。
5.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述第一状态变更参数、所述剩余公开参数、所述第二状态变更参数和所述剩余屏蔽参数确定所述本轮公开参数和所述本轮屏蔽参数,包括:
将所述第二状态变更参数和所述剩余公开参数确定为所述本轮公开参数,将所述第一状态变更参数和所述剩余屏蔽参数确定为所述本轮屏蔽参数。
6.根据权利要求3所述的模型训练方法,其特征在于,所述确定所述本地设备本轮训练的剪枝率,包括:
对所述本地设备上一轮训练的剪枝率进行衰减处理,得到所述本地设备本轮训练的剪枝率。
7.根据权利要求2所述的模型训练方法,其特征在于,所述基于所述本轮公开参数和所述本轮屏蔽参数确定所述本地设备本轮训练的掩码向量,包括:
确定公开参数的向量标识,并确定屏蔽参数的向量标识,所述公开参数的向量标识与所述屏蔽参数的向量标识不同;
在所述本轮公开参数对应的向量位置设置所述公开参数的向量标识,并在所述本轮屏蔽参数对应的向量位置设置所述屏蔽参数的向量标识,得到所述本地设备本轮训练的掩码向量。
8.根据权利要求7所述的模型训练方法,其特征在于,所述基于所述掩码向量从所述各个模型参数中确定出所述本地设备本轮训练需要更新的模型参数,得到目标参数,包括:
基于所述掩码向量中的向量标识确定所述本轮公开参数,将所述本轮公开参数确定为所述目标参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211468938.7/1.html,转载请声明来源钻瓜专利网。