[发明专利]一种数据处理的方法、装置、终端设备及存储介质在审
申请号: | 201810309823.0 | 申请日: | 2018-04-09 |
公开(公告)号: | CN108764273A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 黄严汉;曾凡刚 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 周燕君 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数据处理的方法、装置、终端设备及存储介质,所述方法包括:获取配置信息和初始样本数据;根据所述配置信息生成配置文件;根据配置文件中的分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果得到有效样本数据;对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集;对数字化样本集应用梯度提升决策树算法,生成决策树;将每棵决策树的路径包含的特征作为组合特征,使用组合特征进行逻辑回归模型的模型预测。本发明的技术方案实现了对初始样本数据的组合特征的自动准确提取,从而在根据该组合特征进行模型预测时,能够有效提高模型预测的准确性。 | ||
搜索关键词: | 组合特征 模型预测 配置信息 样本数据 分箱 有效样本数据 数字化样本 存储介质 配置文件 终端设备 数据处理 决策树 热编码 逻辑回归模型 决策树算法 结果构建 应用梯度 | ||
【主权项】:
1.一种数据处理的方法,其特征在于,所述方法包括:获取配置信息,并基于所述配置信息获取初始样本数据;根据所述配置信息,按照预设的配置模板生成配置文件;获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810309823.0/,转载请声明来源钻瓜专利网。