[发明专利]构建GBDT模型的方法、装置及预测方法、装置在审
| 申请号: | 202210493503.1 | 申请日: | 2019-06-18 |
| 公开(公告)号: | CN114819186A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 王海;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 薛义丹;苏银虹 |
| 地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 构建 gbdt 模型 方法 装置 预测 | ||
1.一种构建梯度提升决策树GBDT模型的方法,包括:
获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。
2.如权利要求1所述的方法,其中,所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括:
取所述样本数据集中的所有正样本数据构建一个正样本训练子集;
或者,
取所述样本数据集中的部分正样本数据构建一个正样本训练子集。
3.如权利要求1所述的方法,其中,
当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;
当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。
4.如权利要求1所述的方法,其中,所述基于该训练集训练当前回归树包括:
通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。
5.如权利要求4所述的方法,其中,所述通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树,包括:
从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设GBDT算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;
当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设GBDT算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。
6.一种实现目标对象推荐的方法,包括:
获取待预测的目标对象数据;
根据如权利要求1-5中任一项所述的方法,得到所述梯度提升决策树GBDT模型;
利用所得到的梯度提升决策树GBDT模型执行目标对象推荐任务;
其中,所述目标对象为通过互联网提供的商品或服务。
7.一种实现银行卡泄露点检测的方法,包括:
获取待检测泄漏点的被盗刷银行卡的交易数据;
根据如权利要求1-5中任一项所述的方法,得到梯度提升决策树GBDT模型;
利用所得到的梯度提升决策树GBDT模型执行银行卡泄露点检测任务;
其中,所述交易数据集中包含有每一个银行卡的每次交易时的交易时间及交易时的终端设备标识。
8.一种实现图像/文本分类的方法,包括:
获取待预测的图像/文本数据;
根据如权利要求1-5中任一项所述的方法,得到梯度提升决策树GBDT模型;
利用所得到的梯度提升决策树GBDT模型执行图像/文本分类任务。
9.一种恶意流量检测的方法,包括:
获取待检测的流量数据;
根据所述如权利要求1-5中任一项所述的方法,得到梯度提升决策树GBDT模型;
利用所得到的梯度提升决策树GBDT模型对所述待检测的流量数据执行检测任务。
10.一种构建梯度提升决策树GBDT模型的装置,包括:
获取单元,用于获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
构建单元,用于在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210493503.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遮断型综合防爆抑爆系统及方法
- 下一篇:一种机器人运动模式估计方法及装置





