[发明专利]一种基于采样的分布式机器学习慢节点处理系统及方法有效
申请号: | 201710082939.0 | 申请日: | 2017-02-16 |
公开(公告)号: | CN108446770B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 田乔;许春玲;李明齐 | 申请(专利权)人: | 中国科学院上海高等研究院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 王华英 |
地址: | 201210 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 采样 分布式 机器 学习 节点 处理 系统 方法 | ||
本发明提供一种基于采样的分布式机器学习慢节点处理系统及方法,该系统包括多个呈并列分布的机器,每个机器均包括学习器节点和参数服务器节点,每个学习器节点与每个机器内的参数服务器节点分别相连;学习器节点用于获取数据分片,进行模拟训练,向参数服务器节点发起梯度更新请求;参数服务器节点用于判断学习器节点是否为慢节点,根据判断结果决定是否响应学习器节点发起的梯度更新请求并完成全局模型参数更新。本发明通过使用采样训练过程中的快慢节点更新延迟来发现慢节点,并通过丢弃慢节点的梯度更新的手段来解决过期梯度问题,提高收敛的准确性与稳定性,能防止丢弃慢节点过多的问题。
技术领域
本发明涉及通信技术领域,特别是涉及一种基于采样的分布式机器学习慢节点处理系统及方法。
背景技术
在大数据集上进行训练的现代神经网络架构可以跨广泛的多种领域获取可观的结果,领域涵盖从语音和图像认知、自然语言处理、到业界关注的诸如欺诈检测和推荐系统这样的应用等各个方面。但是训练这些神经网络模型在计算上有严格要求。尽管近些年来GPU硬件、网络架构和训练方法上均取得了重大的进步,但事实是在单一机器上,网络训练所需要的时间仍然长得不切实际。幸运的是,我们不仅限于单个机器:大量工作和研究已经使有效的神经网络分布式训练成为了可能。分布式训练中的数据并行方法在每一个机器上都有一套完整的模型,但分别对训练数据集的不同子集进行处理。数据并行毫无争议是分布式系统中最适的方法,而且也一直是更多研究的焦点。在数据并行中,不同的机器有着整个模型的完全拷贝;每个机器只获得整个数据的不同部分。计算的结果通过某些方法结合起来。数据并行训练方法均需要一些整合结果和在各工作器间同步模型参数的方法。现有的分布式机器学习训练方法一般为SGD,为了获得更快地训练速度,目前常用的SGD算法为异步SGD即Async SGD,然而它们存在以下一些问题:
Async SGD是一种全异步参数同步优化算法,每个学习器节点独立学习,在每轮训练完毕时向参数服务器节点发起参数更新梯度请求,参数服务器节点响应请求并完成参数的全局更新,学习器节点向参数服务器节点拉取最新的参数,开始下一轮训练。由于分布式环境计算效率、通信延迟,稀疏样本均衡性等影响,每个计算节点可能会训练轮次差异过大的情况,即出现可能存在滞后等现象,比如极端情况下N个节点的任务,N-1个节点已经完成当前轮的梯度更新,甚至已经进入下一轮梯度更新,但是第N个的慢节点梯度没有来得及更新,可能对训练的收敛性等造成影响。这时过期梯度可能会导致训练收敛慢、收敛结果不稳定等问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于采样的分布式机器学习慢节点处理系统及方法,通过使用采样训练过程中的快慢节点更新延迟来发现慢节点,并通过丢弃慢节点梯度更新的手段来解决过期梯度问题,提高模型收敛的准确性与稳定性。
为实现上述目的及其他相关目的,本发明提供一种基于采样的分布式机器学习慢节点处理系统,其特征在于,包括多个呈并列分布的机器,每个机器均包括学习器节点和参数服务器节点,每个所述学习器节点与每个所述机器内的所述参数服务器节点分别相连;所述学习器节点用于获取数据分片,进行模拟训练,向所述参数服务器节点发起梯度更新请求,并且异步获取所述参数服务器节点推送的模型参数;所述参数服务器节点用于判断所述学习器节点是否为慢节点,根据判断结果决定是否响应所述学习器节点发起的梯度更新请求并完成全局模型参数更新,并被动向所述学习器节点推送更新后的模型参数。
于本发明的一实施方式中,所述参数服务器节点包括滑动采样模块,所述滑动采样模块用于收集所述学习器节点的之前梯度过期程度以及更新延迟样本,并实时更新。
于本发明的一实施方式中,所述学习器节点还用于在异步获取所述参数服务器节点推送的模型参数之后,用当前参数服务器节点的逻辑时钟值更新自己的逻辑时钟值。
本发明公开了一种基于采样的分布式机器学习慢节点处理方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海高等研究院,未经中国科学院上海高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710082939.0/2.html,转载请声明来源钻瓜专利网。