[发明专利]准入模型的变量处理方法及装置在审
| 申请号: | 202011637185.9 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112734558A | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 高宝;梁桥红;陈阳阳;孙斌华 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/06;G06K9/62 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;孙乳笋 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 准入 模型 变量 处理 方法 装置 | ||
本发明提供了一种准入模型的变量处理方法及装置,可用于金融领域或其他领域。所述方法包括:根据准入模型对应的历史数据生成数据宽表;数据宽表中包括n个变量,n为大于1的正整数;根据预设的抽样比例对数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;根据重要性度量值确定变量从高到低的重要性排序,从重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。本发明通过随机森林模型进行变量筛选,可以大大提升变量后续处理的效率,减少人为进行的变量挑选,从而提升准入模型整体流程的工作效率,提高业务处理的整体时效,节约大量的服务器资源。
技术领域
本发明涉及个人信贷准入模型技术领域,尤指一种准入模型的变量处理方法及装置。
背景技术
客户的准入模型一直是个人信贷领域的重中之重,由于该模型要求对客户的可解释性非常高,所以逻辑回归模型一直是大家的不二之选。然而该模型在兼顾可解释性的同时就必须在数据方面做更多的处理,从准入模型建立之初接收数据开始,先后会经历数据类型的处理、数据的缺失值单一值计算等多种处理,再调用逻辑回归模型。而不管最开始的维度是几百个还是几千上万个,最后逻辑回归留下的大都是二十个以内,所以如果前期的每个步骤都是在全量的维度上进行的话,无疑会增加很多不必要的计算,并且会浪费很多资源和时间。因此,如何在准入模型建立之初缩减变量个数,同时又保留重要性高的变量不会对模型结果造成较大影响甚至有所提升,直接决定后期变量处理时能否减少计算、节约资源和提升效率。
发明内容
针对现有技术中的问题,本发明实施例的主要目的在于提供一种准入模型的变量处理方法及装置,缩减准入模型中后期需要处理变量的个数,从而减少计算量,以提升变量处理的效率和节约资源。
为了实现上述目的,本发明实施例提供一种准入模型的变量处理方法,所述方法包括:
根据准入模型对应的历史数据生成数据宽表;其中,所述数据宽表中包括n个变量,n为大于1的正整数;
根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;
根据所述重要性度量值确定所述变量从高到低的重要性排序,从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。
可选的,在本发明一实施例中,所述从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量包括:从所述重要性排序中选取前m个变量,对m个变量进行变量后续处理,将经过变量后续处理的变量作为准入模型中的逻辑回归模型的输入变量。
可选的,在本发明一实施例中,所述变量后续处理包括:缺失值处理、单一值处理、缺失值填补处理、连续型及离散型变量区分处理、计算WOE值及IV值、计算变量的两两相关性及多重共线性,以及单变量分析处理。
可选的,在本发明一实施例中,所述根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值包括:根据预设的抽样比例,对所述数据宽表中的变量进行i次有放回的抽样,重复k次抽样,得到k个训练样本以及与训练样本一一对应的k个袋外数据;其中,i及k为大于1的正整数;利用所述训练样本对所述随机森林模型进行训练,生成与所述训练样本对应的k棵决策树;利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011637185.9/2.html,转载请声明来源钻瓜专利网。





