[发明专利]一种数据处理的方法、装置、终端设备及存储介质在审

申请号：	201810309823.0	申请日：	2018-04-09
公开（公告）号：	CN108764273A	公开（公告）日：	2018-11-06
发明（设计）人：	黄严汉;曾凡刚	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	周燕君
地址：	518000 广东省深圳市福田***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	组合特征模型预测配置信息样本数据分箱有效样本数据数字化样本存储介质配置文件终端设备数据处理决策树热编码逻辑回归模型决策树算法结果构建应用梯度
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理的方法、装置、终端设备及存储介质，所述方法包括：获取配置信息和初始样本数据；根据所述配置信息生成配置文件；根据配置文件中的分箱配置信息对初始样本数据进行分箱，并基于最终分箱结果得到有效样本数据；对有效样本数据进行独热编码，并根据独热编码的结果构建数字化样本集；对数字化样本集应用梯度提升决策树算法，生成决策树；将每棵决策树的路径包含的特征作为组合特征，使用组合特征进行逻辑回归模型的模型预测。本发明的技术方案实现了对初始样本数据的组合特征的自动准确提取，从而在根据该组合特征进行模型预测时，能够有效提高模型预测的准确性。

技术领域

本发明涉及计算机技术领域，尤其涉及一种据处理的方法、装置、终端设备及存储介质。

背景技术

通常，在各种数据分析和建模过程中，首先需要对样本数据的数据特征进行特征处理。

目前，传统机器学习的特征分析往往依靠人工经验对有限的样本数据进行分析，进而确定特征处理算法，耗时耗力，或者对不同的数据特征均采用单一特征处理算法。然而，无论是人工经验确定的特征处理算法还是单一特征处理算法，均不能满足数据特征的多样化特点，因而得到的特征处理结果往往不能准确反映数据特征的真实特点，导致最终构建的模型的预测结果准确率不高。

发明内容

本发明实施例提供一种数据处理的方法、装置、终端设备及存储介质，以解决现有技术中对数据特征进行特征处理的结果不准确，导致模型预测结果准确率不高的问题。

第一方面，本发明实施例提供一种数据处理的方法，包括：

获取配置信息，并基于所述配置信息获取初始样本数据；

根据所述配置信息，按照预设的配置模板生成配置文件；

获取所述配置文件中的分箱配置信息，根据所述分箱配置信息对所述初始样本数据进行分箱，并基于最终分箱结果对所述初始样本数据进行处理，得到有效样本数据，其中，所述有效样本数据包括分箱特征的分箱特征值；

对所述有效样本数据进行独热编码，并根据所述独热编码的结果构建数字化样本集；

对所述数字化样本集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型，其中，n为大于1的正整数；

将所述决策树模型中每棵决策树的路径包含的特征作为组合特征，使用所述组合特征进行逻辑回归模型的模型预测。

第二方面，本发明实施例提供一种数据处理的装置，包括：

数据获取模块，用于获取配置信息，并基于所述配置信息获取初始样本数据；

文件生成模块，用于根据所述配置信息，按照预设的配置模板生成配置文件；