[发明专利]风控模型入模变量最小熵分箱方法在审
申请号: | 202010296690.5 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111507824A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 刘星辰;陈晓峰;麻沁甜 | 申请(专利权)人: | 上海勃池信息技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N3/12;G06K9/62 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 201815 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 变量 最小 熵分箱 方法 | ||
本发明公开一种风控模型入模变量最小熵分箱方法,包括:获取类别平衡的建模样本集;针对建模样本集,通过相关性和关联性等分析筛选风控模型的入模变量,并进行预处理;将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法;将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。采用本发明实施例提供的方案,在实现自动化分箱的同时保证分箱的合理性,有利于提升风控模型的训练和预测精度。
技术领域
本发明涉及风险控制技术领域,具体涉及风控模型入模变量最小熵分箱方法。
背景技术
风控建模在现代金融的自动化风控中发挥着举足轻重的作用,当前,风控模型大多基于逻辑回归和决策树等机器学习模型,通过历史借贷样本的训练建立用户行为和信用之间的映射关系。风控模型从样本中学习的特性决定了样本集和入模变量是影响模型有效性的关键因素之一。
风控建模过程中,为了增强模型的稳定性和避免过拟合,同时增加模型结果的可解释性,通常会对模型入模变量中的连续变量离散化,即分箱。在常用的分箱方法中,等距分箱和等频分箱由于没有考虑变量本身的分布情况,通常分箱的效果不佳。卡方分箱需要人为设定卡方阈值,依赖专家经验,较为复杂。
发明内容
针对现有技术的不足,本发明提供一种最小熵分箱方法,该方法以变量分箱后熵最小为目标,仅需要预设分箱数,并通过启发式搜索方法获取最优的分箱方案。最小熵的优化目标使变量分箱后箱内差异小和箱间差异大,从而最大程度保留了变量对于风控模型分类的价值,达到提升风控模型训练和预测效果的目的。
本发明提供一种风控模型入模变量最小熵分箱方法,包括如下步骤:
S1:获取类别平衡的建模样本集;
S2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法;
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。
优选地,所述步骤S1中的建模样本集,通过原始样本集的重采样获取。重采样包括欠采样和过采样两种方法,目的是使采样所得的建模样本集类别平衡,即样本集中不同类别样本比例大致相等。
优选地,所述步骤S2中通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理,包括以下步骤:
S2.1在建模样本集的全变量中筛选出对类别变量影响最大的变量子集,作为风控模型的入模变量,其中变量对类别变量影响的衡量可以通过相关性和关联性分析。
S2.2对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理,变量类型包含名义变量、顺序变量和连续变量,预处理的方式根据变量类型和风控模型的输入要求而定。
优选地,所述步骤S3中针对各变量进行多次随机分箱,仅作用于入模变量中的连续变量,名义变量和顺序变量不参与分箱处理。
优选地,所述步骤S3中针对各变量进行多次随机分箱,包括以下步骤:
S3.1对于不同的连续变量分别预设一个分箱数,预设的分箱数不需要相等,实践中视变量的范围和分布而定。
S3.2针对每一个连续变量,根据预设的分箱数进行多次随机分箱,获得各变量一组初始的分箱方案,以作为进一步优化的基础,所谓随机分箱指在连续变量的取值范围内,分段的点随机选取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海勃池信息技术有限公司,未经上海勃池信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010296690.5/2.html,转载请声明来源钻瓜专利网。