[发明专利]预测模型的模型参数更新方法及装置有效
申请号: | 202010761179.8 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111898740B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 任恺 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N20/00;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 冯艳莲 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 模型 参数 更新 方法 装置 | ||
本公开关于一种预测模型的模型参数更新方法及装置。该方法接收工作服务器对获取的模型参数执行模型参数迭代训练时发送的包括模型参数的当前梯度的参数更新请求,且检测出模型参数的类型为嵌入参数后,通过采用满足第一参数更新算法和当前梯度,对嵌入参数进行更新,第一参数更新算法为所需的内存需求量小于预设需求量的算法。该方法通过采用第一参数更新算法可以降低嵌入参数更新的内存使用量,解决了嵌入参数在模型训练期间的内存使用量不足的问题。
技术领域
本公开涉及计算机技术领域,尤其涉及一种预测模型的模型参数更新方法及装置。
背景技术
现有预测模型中模型参数的更新采用的参数更新算法主要为自适应矩估计(Adaptive moment estimation,Adam)算法。
与经典的机器学习模型或计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)使用的深度神经网络不同,预测模型的深度神经网络中的模型参数包括大量的嵌入参数和少量的网络参数,且嵌入参数在预测模型中占用的内存资源可达99.99%以上。
然而,对于现有的参数更新算法,采用Adam算法对预测模型中的嵌入参数进行更新时,所需的内存需求量过大。通常,Adam算法需要维持至少多达或者甚至两倍的模型参数的数量,在面对10倍太字节级别(即10TB级别)的嵌入参数时,将出现内存使用量不足的问题。
发明内容
本公开提供一种预测模型的模型参数更新方法及装置,以至少解决相关技术中在模型训练期间的内存使用量不足的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种预测模型的模型参数更新方法,应用在所述预测模型的参数服务器中,包括:
接收工作服务器对获取的模型参数执行模型参数迭代训练后发送的参数更新请求,所述参数更新请求包括模型参数的梯度信息;
响应于所述参数更新请求,检测所述模型参数的类型;
若所述模型参数的类型为预测模型的嵌入参数,则采用第一参数更新算法和所述梯度信息中的当前梯度,对所述嵌入参数进行更新;其中,所述第一参数更新算法为所需的内存需求量小于预设需求量的算法。
在一种可能的实现中,所述方法还包括:
若所述模型参数的类型为预测模型的网络参数,则采用第二参数更新算法和所述梯度信息中的当前梯度,对所述网络参数进行更新;其中,所述第二参数更新算法为收敛速度大于预设速度阈值的算法。
在一种可能的实现中,采用第一参数更新算法和所述当前梯度,对所述嵌入参数进行更新,包括:
根据所述嵌入参数的当前梯度和所述嵌入参数的历史梯度,获取参数减小量;其中,所述参数减少量与所述当前梯度正相关,与存储的当前的梯度变化量反相关,所述当前的梯度变化量表征所述当前梯度和所述历史梯度的梯度变化程度;
根据所述嵌入参数减小量,对所述嵌入参数进行更新。
在一种可能的实现中,所述当前梯度和所述历史梯度均包括N个梯度值,所述N表示所述嵌入参数的维数;
所述当前的梯度变化量的获取步骤包括:
计算所述嵌入参数中所述N个维数中每个维数对应的所述当前梯度和所述历史梯度的梯度总量,其中,所述梯度总量与所述N的比值为所述当前的梯度变化量。
在一种可能的实现中,对所述网络参数进行更新之后,所述方法还包括:
根据对象推荐系统中每个预测参数服务器存储的嵌入参数的种类,对更新后的嵌入参数进行分组,得到至少一组更新后的嵌入参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010761179.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种眼表疾病自动筛查方法与系统、区块链
- 下一篇:一种视频图像增强方法