[发明专利]改进梯度提升决策树性能的方法及计算机可读存储介质有效
| 申请号: | 202010224284.8 | 申请日: | 2020-03-26 |
| 公开(公告)号: | CN111310860B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 夏树涛;向兴春;张怀选;戴涛 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/241;G06F18/2431;G06N20/00 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 改进 梯度 提升 决策树 性能 方法 计算机 可读 存储 介质 | ||
1.一种改进梯度提升决策树性能的方法,其特征在于,包括如下步骤:
S1:训练基于梯度提升决策树的集成分类器,包括:
构建训练数据和训练参数,所述训练数据包括带有标签的训练数据集和数据的特征集合,所述训练参数包括集成梯度提升决策树的数量和标签的翻转率;
利用所述标签翻转率,采用标签翻转技术对所述训练数据集进行预处理得到预处理后的训练数据集;采用标签翻转技术对所述训练数据集进行预处理,包括:
利用所述标签翻转率计算所述训练数据集的标签的概率转移矩阵;
根据所述带标签的训练数据集得到新的训练数据集;
利用所述概率转移矩阵对所述新的训练数据集进行标签翻转得到所述预处理后的训练数据集;
采用非对称方式计算所述训练数据集的概率转移矩阵;
得到所述训练数据集的概率转移矩阵的公式如下:
Pi←i=1-fr
其中,K是标签类别的数目,i是样本在训练数据集中的类别标签,j是该样本翻转后的类别标签,Pj←i是将i的类别标签翻转到标签j的概率,fr是标签翻转率,Pi←i是i的类别标签翻转到标签i的概率;
根据所述数据的特征集合和所述预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;得到作为基学习器的梯度提升决策树包括:
每一个结点分裂时,从所述结点的可选特征集合中随机保留一定数量的特征组成特征子集;
从所述特征子集中选取最优特征和值进行结点分裂;
所述结点的可选特征集合中包括d个特征,选择k个特征组成所述特征子集,k的取值为:
k=log2d
或,
采用加和的方式将所述基学习器进行组合得到基于梯度提升决策树的集成分类器;
S2:利用所述集成分类器对新的分类样本进行分类并给出新样本的预测标签。
2.如权利要求1所述的改进梯度提升决策树性能的方法,其特征在于,根据所述带标签的训练数据集得到新的训练数据集包括:
复制所述训练数据集得到所述新的训练数据集;
或,使用抽样方法从所述训练数据集得到所述新的训练数据集。
3.如权利要求1-2任一所述的改进梯度提升决策树性能的方法,其特征在于,采用并行的方式训练得到作为基学习器的梯度提升决策树。
4.如权利要求1-2任一所述的改进梯度提升决策树性能的方法,其特征在于,由多数投票法给出所述样本的预测标签。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010224284.8/1.html,转载请声明来源钻瓜专利网。





