[发明专利]一种数据处理的方法、装置、终端设备及存储介质在审
申请号: | 201810309823.0 | 申请日: | 2018-04-09 |
公开(公告)号: | CN108764273A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 黄严汉;曾凡刚 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 周燕君 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组合特征 模型预测 配置信息 样本数据 分箱 有效样本数据 数字化样本 存储介质 配置文件 终端设备 数据处理 决策树 热编码 逻辑回归模型 决策树算法 结果构建 应用梯度 | ||
本发明公开了一种数据处理的方法、装置、终端设备及存储介质,所述方法包括:获取配置信息和初始样本数据;根据所述配置信息生成配置文件;根据配置文件中的分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果得到有效样本数据;对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集;对数字化样本集应用梯度提升决策树算法,生成决策树;将每棵决策树的路径包含的特征作为组合特征,使用组合特征进行逻辑回归模型的模型预测。本发明的技术方案实现了对初始样本数据的组合特征的自动准确提取,从而在根据该组合特征进行模型预测时,能够有效提高模型预测的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种据处理的方法、装置、终端设备及存储介质。
背景技术
通常,在各种数据分析和建模过程中,首先需要对样本数据的数据特征进行特征处理。
目前,传统机器学习的特征分析往往依靠人工经验对有限的样本数据进行分析,进而确定特征处理算法,耗时耗力,或者对不同的数据特征均采用单一特征处理算法。然而,无论是人工经验确定的特征处理算法还是单一特征处理算法,均不能满足数据特征的多样化特点,因而得到的特征处理结果往往不能准确反映数据特征的真实特点,导致最终构建的模型的预测结果准确率不高。
发明内容
本发明实施例提供一种数据处理的方法、装置、终端设备及存储介质,以解决现有技术中对数据特征进行特征处理的结果不准确,导致模型预测结果准确率不高的问题。
第一方面,本发明实施例提供一种数据处理的方法,包括:
获取配置信息,并基于所述配置信息获取初始样本数据;
根据所述配置信息,按照预设的配置模板生成配置文件;
获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
第二方面,本发明实施例提供一种数据处理的装置,包括:
数据获取模块,用于获取配置信息,并基于所述配置信息获取初始样本数据;
文件生成模块,用于根据所述配置信息,按照预设的配置模板生成配置文件;
分箱模块,用于获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
数字化模块,用于对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
决策树构建模块,用于对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
模型预测模块,用于将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述数据处理的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810309823.0/2.html,转载请声明来源钻瓜专利网。