[发明专利]机器学习模型的分布式训练方法、装置和系统在审
申请号: | 202110342282.3 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112906309A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 陈宬;王艺霖;刘一鸣;杨俊;卢冕 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王兆赓 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 分布式 训练 方法 装置 系统 | ||
提供一种机器学习模型的分布式训练方法、装置和系统。所述机器学习模型的分布式训练方法包括:确定训练样本集包含的高频特征,其中,所述训练样本集包含的特征为超高维稀疏特征;针对确定的高频特征,确定训练分发方案,其中,所述训练分发方案包括针对每个高频特征,指定包括该高频特征的训练样本将被分发到的特定的至少一个计算节点,其中,所述特定的至少一个计算节点是用于机器学习模型的分布式训练的多个计算节点中的一部分计算节点;针对分布式训练的每一次迭代训练,从存储训练样本集的存储器预读一个批次的训练样本,并根据所述训练分发方案,将所述一个批次的训练样本中包括高频特征的训练样本分发到指定的至少一个计算节点。
技术领域
本公开涉及计算机技术领域,更具体地说,涉及一种机器学习模型的分布式训练方法、装置和系统。
背景技术
随着数据规模的迅速增长,机器学习被广泛应用于各种领域以挖掘数据的价值。然而,为了执行机器学习,一般物理机的内存已经远远不足,为此,实践中往往需要利用分布式机器学习系统来完成机器学习模型的训练。在现有的分布式机器学习系统中,通常由多个计算节点并行地执行关于同一机器学习模型的训练,由参数服务器来存储该机器学习模型的参数,并支持各个计算节点对该机器学习模型的参数的读写。例如,对于超高维稀疏模型进行分布式训练时,每一次训练都会预读一个批次的数据,按照预读的顺序平均分发给多个计算节点以进行训练,被分发到数据的计算节点从参数服务器查询特征编码(embedding)值,并基于相应的embedding值进行训练以得到参数梯度,再将新的参数梯度传回参数服务器。这样的预读分发方式会多个计算节点分别产生多次的与参数服务器的交互,不够智能,导致训练负载高,训练时间长,训练性能不佳。
发明内容
本公开的示例性实施例可至少部分地解决上述问题。
根据本公开的一方面,提供一种机器学习模型的分布式训练方法,包括:确定训练样本集包含的高频特征,其中,所述训练样本集包含的特征为超高维稀疏特征;针对确定的高频特征,确定训练分发方案,其中,所述训练分发方案包括针对每个高频特征,指定包括该高频特征的训练样本将被分发到的特定的至少一个计算节点,其中,所述特定的至少一个计算节点是用于机器学习模型的分布式训练的多个计算节点中的一部分计算节点;针对分布式训练的每一次迭代训练,从存储训练样本集的存储器预读一个批次的训练样本,并根据所述训练分发方案,将所述一个批次的训练样本中包括高频特征的训练样本分发到指定的至少一个计算节点。
可选地,所述训练样本分发方法还可包括:在确定训练分发方案后,根据所述训练分发方案,将与每个高频特征对应的编码表存储在与相应的至少一个计算节点关联的存储器中;其中,所述编码表用于将训练样本包含的特征映射为适于训练机器学习模型的特征。
可选地,所述确定训练样本集包含的高频特征,可包括:通过对所述训练样本集中包含的所有训练样本执行特征分布分析来确定高频特征。
可选地,所述通过对所述训练样本集中包含的所有训练样本执行特征分布分析来确定高频特征,可包括:遍历所述训练样本集中包含的所有训练样本,将出现频率大于第一预定阈值的特征确定为高频特征。
可选地,所述通过对所述训练样本集中包含的所有训练样本执行特征分布分析来确定高频特征,可包括:遍历所述训练样本集中包含的所有特征被划分到的域,将维度小于第二预定阈值的域中包含的特征确定为高频特征。
可选地,所述确定训练样本集包含的高频特征的步骤以及所述根据确定的高频特征,确定训练分发方案的步骤可在所述分布式训练前被离线执行或者在所述分布式训练的第一个训练周期执行过程中被执行。
可选地,所述针对确定的高频特征,确定训练分发方案,还可包括:按照所述确定的高频特征的访问相关性,对所述确定的高频特征进行分组;其中,所述训练分发方案还包括针对每一组的高频特征,指定包括该组的高频特征的训练样本将被一起分发到的特定的至少一个计算节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110342282.3/2.html,转载请声明来源钻瓜专利网。