[发明专利]风控模型入模变量最小熵分箱方法在审
申请号: | 202010296690.5 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111507824A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 刘星辰;陈晓峰;麻沁甜 | 申请(专利权)人: | 上海勃池信息技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N3/12;G06K9/62 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 201815 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 变量 最小 熵分箱 方法 | ||
1.一种风控模型入模变量最小熵分箱方法,其特征在于,包括以下步骤:
S1:获取类别平衡的建模样本集;
S2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法,多次迭代获得全局最优分箱方法;
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。
2.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S1中的建模样本集,通过原始样本集的重采样获取。重采样包括欠采样和过采样两种方法。
3.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S2中通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理,包括以下步骤:
S2.1在建模样本集的全变量中筛选出对类别变量影响最大的变量子集,作为风控模型的入模变量,其中变量对类别变量影响的衡量可以通过相关性和关联性分析。
S2.2对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理,变量类型包含名义变量、顺序变量和连续变量,预处理的方式根据变量类型和风控模型的输入要求而定。
4.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S3中针对各变量进行多次随机分箱,仅作用于入模变量中的连续变量,名义变量和顺序变量不参与分箱处理。
5.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S3中针对各变量进行多次随机分箱,包括以下步骤:
S3.1对于不同的连续变量分别预设一个分箱数。
S3.2针对每一个连续变量,根据预设的分箱数进行多次随机分箱,获得各变量一组初始的分箱方案,以作为进一步优化的基础。
6.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S4中在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法,包括以下步骤:
S4.1评估该组多个分箱方案的优劣,其中评估的量化指标为分箱方案的熵,以熵最小为优,变量分箱的熵计算如公式(1)所示:
其中k表示预设的分箱数,ri为第i个分箱样本数占总样本数的比例,c为样本集的类别数,pij为第i个分箱内,类别为j的样本占该分箱样本数的比例。
S4.2以较优的分箱方案子集为基础,利用遗传算法和模拟退火算法通过迭代优化的方式获得最终的分箱方案,该方案通常为全局最优解或者近似全局最优解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海勃池信息技术有限公司,未经上海勃池信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010296690.5/1.html,转载请声明来源钻瓜专利网。