[发明专利]一种特征离散化技术对个人用户信用风险的识别方法有效
申请号: | 202111134069.X | 申请日: | 2021-09-27 |
公开(公告)号: | CN113822755B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 李诗宇;田羽;兰翔;陈刚;陈如校 | 申请(专利权)人: | 武汉众邦银行股份有限公司 |
主分类号: | G06Q40/03 | 分类号: | G06Q40/03;G06Q10/0639;G06F17/16;G06F18/23;G06F18/241 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 徐金琼 |
地址: | 432200 湖北省武汉市黄陂区盘龙城经济开发区汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 离散 技术 个人用户 信用风险 识别 方法 | ||
本发明公开了一种特征离散化技术对个人用户信用风险的识别方法,属于建模特征处理技术及风控技术领域,解决了传统的逻辑回归应用在个人信用风险模型时,由于数据不均匀分布导致模型缺陷的问题。本发明包括:提取历史客户征信数据作为建模样本;建模特征离散化;识别黏连指标并进行特征分解;使用特征分解后的指标族训练逻辑回归模型;将模型用于线上客户违约概率预测。
技术领域
一种特征离散化技术对个人用户信用风险的识别方法,用于个人用户信用风险的识别,属于模型特征优化技术及风控技术领域。
背景技术
逻辑回归核心思想是用Logit函数对概率进行转换,Logit函数公式:
Logit(x)=ln(x/(1-x))
假设逻辑回归模型自变量为Y,因变量为A、B.在常规的指标离散化环节,我们会对变量A、B进行WOE变换,转换函数WOEA、WOEB具体公式如下:
WOEA(x)=Logit(P(Y=1))-Logit(P(Y=1:x∈xA))
WOEB(x)=Logit(P(Y=1))-Logit(P(Y=1:x∈xB))
均匀样本下指标WOEA(x)和WOEB(x)会呈现较低的相关性.而加入边缘样本破坏了样本分布IIA性质(independent irrelevant),我们希望用正交拆解的方法构造一组相关性较低的指标代替原有指标。
假设指标A边缘聚点所在箱为指标B边缘聚点所在箱为我们将WOEA(x)拆解为定义如下:
通过计算可以验证
所以构成WOEA(x)的正交分解.
关于聚点有关信息保存于之中,而分量不含任何聚点信息。
同样地我们可以把WOEB(x)分解为
是剔除聚点信息后的分量所以满足
令
那么三个变量两两不存在相关性,
用替换原有变量WOEA和WOEB,即可消除掉聚点相关性对指标分布造成的影响。
在线上消费贷款、信用卡授信等场景下,需要对客户进行信用风险评估,对高风险客户拒绝授信。商业银行采用的模式一般是调取客户征信数据,基于这些数据进行逻辑回归建模。个人征信数据一般包括信用卡数、贷款笔数、支用次数等。因为业务原因,指标分布呈现不均匀,在0点处往往会存在聚点。这类聚点使得样本分布背离了逻辑回归模型IIA分布条件,进而影响到模型稳定性、削弱模型最终效果。
针对上述技术问题,现有技术采用的方法有:
1.客群分类方法:基于经验和业务逻辑对客户进行分类,对不同客群分别开发模型。例如对于新老客户分别开发模型;对于信用卡客户和非信用卡客户分别开发模型。
这种方法的问题在于区分客群使得单个模型训练样本更少,对于在不同客群上分别训练逻辑回归系数等价于增加了模型的自由度,这些因素都使得模型泛化能力变弱,影响模型稳定性,也会影响模型对识别风险精确性。
2.对干扰指标剔除方法:
(1)依据时间对样本进行划分,检验指标在不同样本下分布和趋势的一致性。剔除不一致指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众邦银行股份有限公司,未经武汉众邦银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111134069.X/2.html,转载请声明来源钻瓜专利网。