[发明专利]任务模型训练方法、装置以及系统在审
申请号: | 202210397221.1 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114723047A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 郑龙飞;陈超超;张本宇;王力 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 赵杰 |
地址: | 310013 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 模型 训练 方法 装置 以及 系统 | ||
1.一种任务模型训练方法,应用于训练设备,包括:
在接收到服务器发送的第一子任务模型的情况下,将本地训练样本输入所述第一子任务模型,得到输出向量,所述第一子任务模型为所述服务器对预训练的任务模型进行拆分得到;
根据稀疏矩阵对所述输出向量进行稀疏化处理,得到隐层特征向量,将所述隐层特征向量发送至所述服务器;
接收所述服务器发送的预测结果,基于所述预测结果与所述本地训练样本的标签信息确定损失值,并基于所述损失值获取梯度向量,所述预测结果为所述服务器将所述隐层特征向量输入第二子任务模型确定,所述第二子任务模型为所述服务器对预训练的任务模型进行拆分得到;
根据所述梯度向量,更新所述稀疏矩阵,返回执行所述将本地训练样本输入所述第一子任务模型的步骤,直至达到训练停止条件。
2.根据权利要求1所述的方法,在所述将本地训练样本输入所述第一子任务模型之前,还包括:
在接收到服务器发送的任务模型的情况下,根据本地训练样本对所述任务模型进行训练,得到初始任务模型;
将所述初始任务模型和所述初始任务模型对应的训练样本量发送至所述服务器,以使所述服务器基于各训练设备发送的初始任务模型和训练样本量确定预训练的任务模型。
3.根据权利要求2所述的方法,所述根据本地训练样本对所述任务模型进行训练,得到初始任务模型,包括:
根据本地训练样本对所述任务模型进行迭代训练;
在迭代次数达到预设迭代值时,停止迭代训练,得到初始任务模型。
4.根据权利要求1所述的方法,所述根据稀疏矩阵对所述输出向量进行稀疏化处理之前,还包括:
随机选择所述稀疏矩阵中的N个元素,N为任意自然数;
将所述N个元素对应的数值设置为第一预设数值,将其他元素对应的数值设置为第二预设数值,所述其他元素为所述稀疏矩阵中所述N个元素以外的元素。
5.根据权利要求1所述的方法,所述根据稀疏矩阵对所述输出向量进行稀疏化处理,得到隐层特征向量,包括:
将所述输出向量和所述稀疏矩阵进行矩阵逐元素乘法运算,得到隐层特征向量。
6.根据权利要求1所述的方法,所述基于所述损失值获取梯度向量,包括:
将所述损失值发送至所述服务器,以使所述服务器基于所述损失值和所述第一子任务模型与所述第二子任务模型的预设链锁规则,更新所述第二子任务模型,得到并反馈所述损失值对应的梯度向量。
7.根据权利要求1所述的方法,所述根据所述梯度向量,更新所述稀疏矩阵,包括:
将所述梯度向量中各元素按照绝对值的大小从大到小排列,选取前M个元素,M为任意自然数;
根据所述前M个元素在所述梯度向量的位置,更新所述稀疏矩阵。
8.根据权利要求7所述的方法,所述根据所述前M个元素在所述梯度向量的位置,更新所述稀疏矩阵,包括:
根据所述前M个元素在所述梯度向量的位置,确定所述稀疏矩阵中M个所述位置对应的目标元素;
将所述目标元素对应的数值设置为第一预设数值,将其他元素对应的数值设置为第二预设数值,所述其他元素为所述稀疏矩阵中所述目标元素以外的元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210397221.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种弧形钣金工件冲压模具
- 下一篇:一种无碱玻璃纤维加工系统