[发明专利]深度森林模型开发和训练在审
申请号: | 202080018916.3 | 申请日: | 2020-03-06 |
公开(公告)号: | CN113557534A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 许静;王锐;马小明;杨继辉;张雪英;J·J·许;韩四儿 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N7/02 | 分类号: | G06N7/02 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;刘薇 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 森林 模型 开发 训练 | ||
用于分析数据的深度森林模型的自动开发和训练包括,使用数据生长决策树的随机森林,确定森林的袋外(OOB)预测,将所述OOB预测附加到数据集,以及使用包括所附加的OOB预测的数据集来生长另外的森林,并且合并该另外的森林的输出,然后利用该模型对训练数据集之外的数据进行分类。
背景技术
本公开一般地涉及用于开发和训练用于分析数据的模型的系统和方法。本公开尤其涉及使用深度随机森林自动开发和训练模型以分析数据的系统。
深度学习至少部分由于深度神经网络的成功应用而众所周知,特别是在涉及图像和语音信息的任务中。深度神经网络也具有缺陷。深度神经网络可能需要大量的数据用于训练,这使得深度神经网络不太适合于小规模数据。深度神经网络可以是包括太多超参数的非常复杂的模型。可能需要仔细地调整这些参数以达到期望的学习准确度,使得深度神经网络的训练更像技术,而不是科学或工程学。
Zhou等人提出了一种新的深度学习方法gcForest(多粒度级联森林)[Z.-H.Zhou和F.Ji.Deep forest:towards an alternative to deep neural networks(深度森林:朝向深度神经网络的替代方案).arXiv:1702.08835v2,2017]。该方法试图通过随机森林的级联结构来实现关键的深度学习想法,即表示学习,其中级联的每个层接收由前一层创建的特征信息,并且将其结果输出到下一层。gcForest可以实现与深度神经网络有竞争力的性能,但是具有较少的上述缺陷。
随机森林由Breiman在2001年提出[L.Breiman.Random forests(随机森林).Machine Learning(机器学习),45(1):5-32,2001]。它是决策树的集合。当在集合中生长这些决策树时,应用特殊处理。首先,在自举(bootstrap)样本上生长每个树。自举样本通过从训练数据中采样并替换来获得,并且样本大小与训练数据的大小相等。第二,每个树需要在样本上完全生长,直到每个叶节点仅包含相同类的实例,并且不需要修剪。更重要的是,当分割树中的任何节点时,它随机地选择预测因子的一部分,从该部分预测因子中选择具有最佳gini值的预测因子用于分割。
当对数据实例进行评分时,随机森林使用多数表决来组合来自个体树的预测。例如,考虑具有3个类(c1、c2和c3)的目标变量以及森林中的1000个决策树。假设针对3个类的投票的数量分别是200、300和500。然后,随机森林将报告针对正在评分的实例的类概率的向量,即,[0.2,0.3,0.5]。还将报告c3的标签预测,因为它具有最大预测概率。
如果实例是训练实例,则随机森林提供生成袋外(Out-of-Bag,OOB)预测的选项。这样的预测是用树的投票计数的结果,这些树尚未将实例包括在它们的自举样本中。继续以上实例,如果存在尚未将实例用于训练的400个树,且c1、c2和c3的投票数目分别为100、100和200,那么所述实例的OOB预测(概率向量)将为[0.25、0.25、0.50]。标签预测将是c3,因为它对应于最大概率。通过将实例标签与对训练数据的OOB标签预测进行比较来计算森林的OOB精确度。
gcForest的方法使用交叉验证来生成新的特征信息。虽然交叉验证是有效的,但它也带来挑战。首先,gcForest的方法包括每层中的多个随机森林学习器N,并且其需要针对每个学习器的k倍交叉验证。由此,每一层需要总共N*k个学习器。当数据集很大时,由于学习器的数量随着数据集的大小而增加,并且构建甚至单个学习器是昂贵的,所以可能出现性能问题。将需要非常强大的计算设施。第二,由于交叉验证和对从训练数据集导出的验证数据集的需要,训练数据可能不被完全使用。gcForest的方法将数据分成训练样本和验证样本,并且如果不能提高验证样本的准确度则停止训练。验证样本的使用使得小数据问题甚至更差。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080018916.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制器系统
- 下一篇:用于运载工具的操作单元