[发明专利]一种基于SPARK平台的并行化深度学习方法有效
申请号: | 201810015428.1 | 申请日: | 2018-01-08 |
公开(公告)号: | CN108564164B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 杜鑫;匡迪;吴维刚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 平台 并行 深度 学习方法 | ||
1.一种基于SPARK平台的并行化深度学习方法,其特征在于:包括以下步骤:
S1.在多个节点上分别安装SPARK平台,然后进行相关的环境变量设置;
S2.令多个节点中的部分节点为计算节点,剩余的节点中,一部分为参数存储节点,另一部分为参数服务控制节点;
S3.在各个计算节点上分别初始化一个训练模型,所述训练模型为Lenet-5卷积神经网络;
S4.判断所有的计算节点的训练模型的状态是否都已触发触发器,若是则执行步骤S7,否则执行步骤S5;
S5.将训练数据进行划分后平均分配给各个计算节点,各个计算节点上的训练模型利用分配的数据进行前向传播计算和后向传播计算,得到训练模型的参数信息后将参数信息通过参数服务控制节点回传至参数存储节点进行存储;然后同步更新训练模型;
所述训练数据加载在SparkContext中,其在分配前经过预处理;
所述预处理的具体过程如下:
1)将训练数据尺寸为32×32位图转换为28×28的灰度图表示形式;
2)根据事先设定好的图片灰度值的均值和标准差对进行训练数据中的样本进行直方图均衡化处理;
3)对训练数据中的样本进行混洗处理,随机地将图片信息重新排列;
4)对混洗后的训练数据进行重新分区的处理,使得分区数等于参与训练的总核数;
所述计算节点上传的参数信息以块的形式存储在参数存储节点中,每个块都会有唯一的标识,块的标识由两部分组成:
1)任务标识:每次创建训练任务时,会对每个任务分配唯一的任务标识;
2)训练线程标识:每次训练开始前,会根据配置的总核数来创建相应数目的训练线程,每个线程之间相互独立,每个线程都有唯一的标识信息;
将以上两部分信息组合在一起形成块标识,与参数存储节点中的物理存储空间一一对应;
S6.判断各个计算节点的一代训练是否完成,若否则直接执行步骤S4;若是则输出总时间,并且使每个计算节点向参数服务控制节点请求对应计算节点最新的参数信息,请求得到最新的参数信息对训练模型进行配置后,执行步骤S4;
S7.结束;
所述计算节点计算得到参数信息后,会向参数服务控制节点发送Push请求上传参数,参数服务控制节点根据计算节点上传的块标识信息回复路由信息,计算节点根据该路由信息向参数存储节点发送参数,参数存储节点再对接收的参数信息进行存储;
计算节点在需要获取最新的参数信息时,会向参数服务控制节点发送Pull请求,参数服务控制节点根据块标识信息将存储在参数存储节点本地的参数信息发送给计算节点。
2.根据权利要求1所述的基于SPARK平台的并行化深度学习方法,其特征在于:参数服务控制节点对参数存储节点、计算节点进行注册登记,并生成相应的路由信息记录到路由表中。
3.根据权利要求1所述的基于SPARK平台的并行化深度学习方法,其特征在于:所述上传的参数信息在存储时具有备份有3个副本,分别存储在不同的参数存储节点中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810015428.1/1.html,转载请声明来源钻瓜专利网。