[发明专利]深度学习模型分布式训练系统的参数同步方法及系统在审
| 申请号: | 202210311440.3 | 申请日: | 2022-03-28 |
| 公开(公告)号: | CN114625514A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 张俊钦 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F16/178;G06F16/182;G06N20/00 |
| 代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 涂凤琴 |
| 地址: | 100089 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 深度 学习 模型 分布式 训练 系统 参数 同步 方法 | ||
本发明涉及一种深度学习模型分布式训练系统的参数同步方法及系统,该方法的管理节点在自身的训练任务结束时,向目标参数服务器发送查询指令,根据查询结果,判断完成训练任务的节点数量是否等于预设值;若是,从目标参数服务器获取训练好的模型参数,并将所述模型参数保存为模型存储在分布式文件系统中,从而保证了管理节点获取到的分布式模型参数的完整性,解决了现有技术中深度学习模型分布式训练时,由于管理节点在训练结束时获取的分布式模型参数不完整,导致训练出的模型效果不佳的问题。
技术领域
本发明涉及深度学习模型技术领域,具体涉及一种深度学习模型分布式训练系统的参数同步方法及系统。
背景技术
在解决图像检测、文本分类、语音识别问题时,往往会用到深度学习分布式训练,对海量的图像数据及文本数据进行分类。例如,谷歌的阿尔法围棋程序就需要以百万甚至千万数量级的棋谱进行训练。
在深度学习分布式训练场景下,有一种典型的parameter server(参数服务器)的分布式训练。如图1所示,parameter server的分布式训练包括多个训练角色,主要包括管理节点Master、执行节点Worker、参数服务器节点 Parameter Server(以下简称为PS)三种,其中,管理节点Master也可以用其中一个执行节点Worker来替代,比如用index为0的执行节点Worker来替代。
其中,管理节点Master和执行节点Worker都是用来训练深度学习模型的, PS是用来保存深度学习模型参数的。管理节点Master只会有一个,执行节点 Worker会有一个或多个,PS会有一个或多个。管理节点Master(或者index 为0的执行节点Worker)除了参与训练,还会控制整个训练过程,当训练结束的时候,会把训练好的整个模型参数保存下来。在训练过程中,管理节点 Master/执行节点Worker每次会从PS读取深度学习模型参数,并进行训练,然后把参数更新到PS去。
如图2所示,在深度学习模型的分布式训练中,Master/Worker会读取训练数据集并进行训练,为了让Master/Worker不重复训练数据,会把数据集做独立切分。例如,有100个数据集训练文件,有1个Master 9个Worker,那么可以将这100个数据集训练文件切分成10份,每份10个文件,那么Master 和9个Worker可以各自独立读取并训练这10份数据集训练文件,每份数据集文件都是10个。而且这些数据集训练文件都会被保存到分布式文件系统中。
如图3所示,Master除了参与数据集训练外,还参与训练流程的控制和模型参数的保存,在完成所有的数据集训练后,Master会将最后训练好的模型参数从所有的PS中读出来,并保存成模型到分布式文件系统中。
由于分布式训练过程中,Master和Worker之间各自独立训练自己分到的数据,整个训练过程都不会互相同步。而且,在实际的物理集群训练时,Master 和Worker所在的机器可能由于各种原因,例如,CPU负载不同、网络状态不同等,导致Master和Worker训练速度会不同,可能Master比较快,也可能 Worker比较快,也可能Master比部分Worker快,但是比部分Worker慢。
如果Master比Worker快很多,导致Master只将分给自己的数据集训练完成后退出,并只将当前训练好的模型参数从PS获取并保存下来,这个时候实际上Worker还有部分数据集没有训练,从而导致训练出的模型效果不佳。
另外,由于是分布式训练,Master和Worker的启动顺序会不同,如果训练数据集总量比较小,甚至可能Worker任务还没开始,Master就已经完成了自己的数据集训练,这也会导致训练出的模型效果不佳。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311440.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种同轴线锥螺杆压缩机及其装配方法
- 下一篇:车辆状态的监测方法和系统





