[发明专利]一种变量分箱方法、装置、终端设备及存储介质有效

专利信息
申请号: 201810309822.6 申请日: 2018-04-09
公开(公告)号: CN108959187B 公开(公告)日: 2023-09-05
发明(设计)人: 黄严汉;曾凡刚 申请(专利权)人: 中国平安人寿保险股份有限公司
主分类号: G06F17/18 分类号: G06F17/18;G06F18/24
代理公司: 深圳众鼎专利商标代理事务所(普通合伙) 44325 代理人: 周燕君
地址: 518000 广东省深圳市福田*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 变量 方法 装置 终端设备 存储 介质
【说明书】:

发明涉及计算机技术领域,提供了一种变量分箱方法、装置、终端设备及存储介质,变量分箱方法包括:获取样本数据;根据预设的变量配置,从样本数据中确定待分箱的名义变量和该名义变量对应的特征值;将特征值存储到预设的特征值集合中;针对特征值集合中的每个特征值,以该特征值为测试分裂点将名义变量分为两箱,并计算特征值对应的关联指标值;将关联指标值中的最大值对应的特征值作为目标分裂点执行分箱操作,并将该特征值从所述特征值集合中移除;若分箱结果达到预设的箱数阈值则停止分箱,否则继续执行分箱操作。本发明的技术方案实现了基于关联指标值对名义变量进行自动分箱操作,减少人工干预及耗时,提高分箱操作的分箱效率。

技术领域

本发明涉及计算机技术领域,尤其涉及一种变量分箱方法、装置、终端设备及存储介质。

背景技术

目前,常见的分箱方法是等宽分箱或者等频分箱,等宽分箱是指将特征的取值范围分为a个等宽的区间,每个区间当作一个分箱,等频分箱是指把特征值按照从小到大的顺序排列,根据特征值的个数等分为a部分,每部分当作一个分箱。但是无论是等宽分箱还是等频分箱,都需要预先人工设定分箱的箱数,如果设定的箱数太小,则会损失较多的信息,如果设定的箱数太大,则达不到分箱的目的。

若在等频分箱或者等宽分箱之后,再通过人工方式进行合并,由于这种人工合并需要依赖主观经验,无法确保提高特征预测能力,并且需要耗费较多时间,效率低下。

在样本数据量较小的情况下,还可以通过人工方式分析特征值的分布情况,并根据分布情况对特征值进行人工分段,进行分箱,但是,一方面,这种方式依赖主观经验,并且特征值的分布并不能真实的反映样本变量本身的特征,无法确保提高模型预测能力,另一方面给,在样本数据量巨大的情况下,人工方式会带来巨大的工作量,导致分箱效率低。

发明内容

本发明实施例提供一种变量分箱方法、装置、终端设备及存储介质,以解决现有技术中等频分箱或等宽分箱的分箱结果不准确,以及分箱效率低的问题。

第一方面,本发明实施例提供一种变量分箱方法,包括:

获取样本数据;

根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;

将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k∈[0,m-1];

针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,计算所述特征值对应的关联指标值,得到m-k个所述关联指标值;

将m-k个所述关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从所述特征值集合中移除;

若k+2达到预设的箱数阈值,则停止分箱,并将所述第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回所述针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上,将所述名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个所述关联指标值的步骤继续执行。

第二方面,本发明实施例提供一种变量分箱装置,包括:

获取模块,用于获取样本数据;

确定模块,用于根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;

存储模块,用于将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k∈[0,m-1];

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810309822.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top