[发明专利]一种基于任务并行的细粒度分布式深度森林训练方法在审

专利信息
申请号: 202010193428.8 申请日: 2020-03-18
公开(公告)号: CN111414961A 公开(公告)日: 2020-07-14
发明(设计)人: 朱光辉 申请(专利权)人: 江苏鸿程大数据技术与应用研究院有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 代理人: 周超
地址: 210000 江苏省南京市江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 并行 细粒度 分布式 深度 森林 训练 方法
【说明书】:

发明公开了一种基于任务并行的细粒度分布式深度森林训练方法,包括以下步骤:(a)在深度森林的每一层,其中每一个森林被拆分成多个均匀的子森林,其中每个子森林对应一个计算任务;(b)为子森林设置合适的随机状态,为子森林训练时的交叉验证设置合适的随机状态;(c)将子森林训练任务发放到各个计算节点执行;(d)采用Tree‑Reduce树形合并法将属于同一个随机森林的子森林的结果合并,得到该原始随机森林的训练结果,完成多个森林的并行训练。以提高深度森林训练效率,促进其应用与解决实际问题。

技术领域

本发明涉及分布式机器学习领域,尤其涉及一种基于任务并行的细粒度分布式深度森林训练算法。

背景技术

针对深度神经网络(DNN)需要大量数据样本和昂贵计算资源、超参数调优难以及不适合处理有结构数据等问题,许多研究人员开始探索DNN的替代方案。周志华等提出了深度森林,这为许多机器学习任务开辟了一扇新的大门。深度森林是随机森林的深度集成模型,具有一个级联森林结构,以进行表示学习。与DNN相比,深度森林可以自适应地确定的模型复杂度(例如,级联层的层数)。此外,深度森林在大范围的任务中实现了相比DNN更加优异的精度结果。

在许多任务中,深度森林是DNN的理想的替代品。然而,现有的深度森林训练系统gcForest效率不高。原因有两点,首先,gcForest深度森林的训练过程是串行的。在每个级联层中,森林是顺序地进行训练的。其次,gcForest是一个缺乏可扩展性的单机系统,效率不高。举例来说,在具有2个Intel Xeon 2.1GHz CPU(12个物理核)的商用PC上,gcForest在MNIST数据集上训练一个深度森林需要近10个小时。对于CIFAR10数据集,训练时间甚至超过了一天。

gcForest的低效率会在一定程度上阻碍深度森林的实际应用。与此同时,越来越多的研究人员也意识到,计算效率、计算性能以及底层高性能计算系统在机器学习算法的实际应用中起着至关重要的作用。因此,迫切需要研究一种高效的深度森林系统,来帮助深度森林算法更快速地研究和应用。

发明内容

本发明要解决的技术问题是提供一种基于任务并行的细粒度分布式深度森林训练算法,以提高深度森林训练效率,促进其应用与解决实际问题。

为了解决上述技术问题,本发明的技术方案为:

一种基于任务并行的细粒度分布式深度森林训练方法,包括以下步骤:

(a)在深度森林的每一层,其中每一个森林被拆分成多个均匀的子森林,其中每个子森林对应一个计算任务;

(b)为子森林设置合适的随机状态,为子森林训练时的交叉验证设置合适的随机状态;

(c)将子森林训练任务发放到各个计算节点执行;

(d)采用Tree-Reduce树(树形规约树)分层树形合并法将属于同一个随机森林的子森林的结果合并,得到该原始随机森林的训练结果,完成多个森林的并行训练。

进一步地,在步骤(a)中子森林拆分方法产生的级联层输出类向量与非拆分的方法产生的级联层输出类向量一致。

进一步地,在步骤(a)中将子森林训练任务随机和独立地发送到集群中的各个计算节点执行。

进一步地,在步骤(d)中还包括以下步骤:

(d1)子森林的结果首先发送给底层工作节点;

(d2)本地合并结果后进一步发送给上层工作节点;

(d3)最后,由主节点对所有合并后的完整森林的结果进行合并。

采用上述技术方案,使得本发明所述基于任务并行的细粒度分布式深度森林训练方法能够将深度森林训练效率在大范围的数据集上提升平均一个数量级。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏鸿程大数据技术与应用研究院有限公司,未经江苏鸿程大数据技术与应用研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010193428.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top