[发明专利]改进梯度提升决策树性能的方法及计算机可读存储介质有效
| 申请号: | 202010224284.8 | 申请日: | 2020-03-26 |
| 公开(公告)号: | CN111310860B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 夏树涛;向兴春;张怀选;戴涛 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/241;G06F18/2431;G06N20/00 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 改进 梯度 提升 决策树 性能 方法 计算机 可读 存储 介质 | ||
本发明提供一种改进梯度提升决策树性能的方法及计算机可读存储介质,方法包括:训练基于梯度提升决策树的集成分类器,包括:构建训练数据和训练参数,训练数据包括带有标签的训练数据集和数据的特征集合,训练参数包括集成梯度提升决策树的数量和标签的翻转率;利用标签翻转率,采用标签翻转技术对训练数据集进行预处理得到预处理后的训练数据集;根据数据的特征集合和预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;采用加和的方式将基学习器进行组合得到基于梯度提升决策树的集成分类器;利用集成分类器对新的分类样本进行分类并给出新样本的预测标签。在提升对标签噪声的鲁棒性能的同时保证训练效率。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种改进梯度提升决策树性能的方法及计算机可读存储介质。
背景技术
在机器学习和数据挖掘领域,分类是一种常见的机器学习任务,而基于人工标注数据集的监督学习又是分类任务中的一种常见方法。监督学习方法性能优良的关键点在于数据集标注准确,但面对海量的数据,人工标注由于时间、精力、领域知识有限等原因不可避免地会出现错误,而一些自动标注的数据集标注不准确的现象更为常见,所以监督学习算法如何减少甚至避免标签噪声的影响非常重要。
梯度提升决策树GBDT作为一种应用非常广泛的监督学习算法,可以灵活地处理各种类型的数据和异常值,预测的准确率很高,采用不同的损失函数时可以用于不同的任务(分类或回归)。
用于分类任务的GBDT通过多轮迭代,每轮迭代产生一个决策树作为弱分类器,每个分类器会拟合上一轮分类器与样本真实值的残差。由于GBDT基于残差训练的特点,若训练数据集的标签不准确,将会严重影响GBDT的泛化性能,即GBDT对数据中的标签噪声不具有鲁棒性。另一方面,尽管GBDT已经得到广泛使用,但其性能也还有进一步提升的空间。
针对标签噪声问题,传统机器学习领域目前有三类常见的处理方法:
第一类是预先添加标签噪声过滤器模块,以检测那些最可能的噪声样本,例如最近邻准则和累积信息准则,在集成学习中也有类似方法。那些被识别为错误标签或离群点的样本将在训练后面的分类器模型时被去除或者赋予很小的权重。
第二类是先识别出训练数据集中的错误标签并对其纠正,然后再将纠正标签后的样本用于训练模型,比如使用概率模型对标签噪声进行建模并加以纠正。
第三类是直接改进分类器本身,使其对标签噪声更鲁棒。常见的策略包括在损失函数中添加惩罚项或引入一些训练技巧。
现有技术中所采用的容忍标签噪声的方法也采用了上面提到的第二类方法。
第一类过滤器方法简单且易于实现,但是其中一些方法可能会删除大量数据,带来训练数据不足的问题;第二类识别并纠正标签噪声的方法可能需要噪声的先验知识,而且会增加模型难度;第三类方法添加惩罚项也需要先验知识,而引入训练技巧则需要对不同数据和模型有针对性的引入。
虽然上述应对标签噪声的方法都取得了一定的效果,但是基于GBDT这一特定结构用于分类任务的标签噪声处理方法,尤其是采用集成的方法来提升GBDT对标签噪声的鲁棒性的研究仍然是空白的且存在以下两个问题:
(1)GBDT本身作为一种集成学习算法,已经是一种强学习器,若直接对GBDT采用Bagging集成方法来提高其对标签噪声的鲁棒性,则由于基学习器性能很强且差异性太小而不能充分发挥集成学习的优势;
(2)GBDT作为一种串行的集成学习方法,其时间复杂度尚可以接受,但若再直接对其进行集成,则其对计算资源和时间的消耗将随着集成GBDT的数量成倍增长,尤其将不适用于处理高维数据.
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010224284.8/2.html,转载请声明来源钻瓜专利网。





