[发明专利]一种数据处理的方法、装置、终端设备及存储介质在审

专利信息
申请号: 201810309823.0 申请日: 2018-04-09
公开(公告)号: CN108764273A 公开(公告)日: 2018-11-06
发明(设计)人: 黄严汉;曾凡刚 申请(专利权)人: 中国平安人寿保险股份有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 深圳众鼎专利商标代理事务所(普通合伙) 44325 代理人: 周燕君
地址: 518000 广东省深圳市福田*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 组合特征 模型预测 配置信息 样本数据 分箱 有效样本数据 数字化样本 存储介质 配置文件 终端设备 数据处理 决策树 热编码 逻辑回归模型 决策树算法 结果构建 应用梯度
【权利要求书】:

1.一种数据处理的方法,其特征在于,所述方法包括:

获取配置信息,并基于所述配置信息获取初始样本数据;

根据所述配置信息,按照预设的配置模板生成配置文件;

获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;

对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;

对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;

将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。

2.如权利要求1所述的数据处理的方法,其特征在于,所述根据所述配置信息,按照预设的配置模板生成配置文件之后,并且所述获取所述配置文件中的分箱配置信息之前,所述方法还包括:

根据所述配置文件对初始样本数据进行分析,得到所述初始样本数据的数据描述;

将所述数据描述发送至用户,以便所述用户根据所述数据描述确定待调整参数;

接收所述用户发送的对所述待调整参数的调整指令;

根据所述调整指令,更新所述配置文件。

3.如权利要求1所述的数据处理的方法,其特征在于,所述分箱配置信息包括空值填充信息和分箱特征,所述获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据包括:

从所述配置文件中获取所述空值填充信息,并根据所述空值填充信息对所述初始样本数据进行空值填充;

从所述配置文件中获取所述分箱特征;

根据所述分箱特征,从所述初始样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;

将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k大于等于0,并且小于等于m-1;

针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,计算所述特征值对应的关联指标值,得到m-k个所述关联指标值;

将m-k个所述关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从所述特征值集合中移除;

若k+2达到预设的箱数阈值,则停止分箱,并将所述第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回所述针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上,将所述名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个所述关联指标值的步骤继续执行;

根据所述最终分箱结果,确定所述初始样本数据的所述分箱特征的分箱特征值,得到有效样本数据。

4.如权利要求1所述的数据处理的方法,其特征在于,所述对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集之后,以及所述对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型之前,所述方法还包括:

根据所述配置文件中的交叉配置信息,对所述数字化样本集中的数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值;

使用包含所述交叉特征的所述数字化样本,更新所述数字化样本集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810309823.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top