[发明专利]一种用于在征信风控建模中补充正样本的方法和装置在审
申请号: | 202210099499.0 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114463113A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 周晓瑞;卓正兴;杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62 |
代理公司: | 北京启坤知识产权代理有限公司 11655 | 代理人: | 姜冰莹 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 信风 建模 补充 样本 方法 装置 | ||
本申请提供了一种用于在征信风控建模中补充正样本的方法和装置,该方法包括:从本机构的全量征信报告中选择出本机构的未用信用户所对应的多个征信报告;针对所述多个征信报告中的每个征信报告,对该征信报告中的贷款记录进行解析并判断是否存在逾期贷款记录,若是,记录所述逾期贷款记录对应的明细信息,否则,为该征信报告添加无逾期标记;从解析后的多个征信报告中筛选出用于征信风控建模的正样本。本申请能够通过将未用信用户在其他机构的逾期表现推断为在本机构借贷的逾期表现,并作为模型训练的标签,来扩充征信风控模型训练的正样本,从而有效缓解征信风控建模中正样本不足及样本不均衡问题,增强征信风控模型的识别风险能力和泛化能力。
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于在征信风控建模中补充正样本的技术方案。
背景技术
在信贷领域中,建立风控模型是为了找出可能会逾期的客户,之后根据风控模型和策略规则所给出的客户逾期可能性来确定是否放贷。相比于其他机器学习任务,风控建模的一个显著特点是训练数据集中的正样本占比极少,因此样本的类别分布非常不平衡,导致的结果是学习到的模型过分关注负样本,而对正样本的灵敏性降低,影响模型在实际预测中的表现。这里,正样本是指有逾期行为的样本,风控建模中,模型训练集里逾期样本的比例通常很低,因此正样本属于少数样本,负样本是指没有逾期行为的样本,通常模型训练集中的大部分样本没有逾期行为,属于多数样本。
现有技术中,解决风控建模中的数据不平衡问题的方法主要基于重新采样训练集,具体方法包括:欠采样、过采样以及Smote合成少数过采样。过采样会随机复制少数样本(正样本),通过增大少数样本的规模来平衡正负样本比例。欠采样则与过采样相反,通过随机地少采样多数样本(负样本)来降低多数样本的规模。欠采样和过采样都是在不构造新样本的条件下均衡正负样本比例。Smote合成少数过采样对每个目标正样本找到其邻近的n个相邻正样本,在目标正样本上进行随机线性插值,构造新的的正样本。随机线性插值的公式如下
xnew=xi+rand(0,1)*(yj-xi),j=1,2,...,n
其中,xnew代表新构造的正样本,xi代表目标正样本,yj代表目标正样本的第j个相邻正样本。通过在目标正样本上增加0到0之间随机比例的与相邻正样本间距离的扰动值来构造新的正样本。
过采样可以简单直接的改善样本分布不平衡问题,但由于补充的正样本是简单复制现有的正样本得到,因此会使得正样本的方差比实际更小,模型会过分强调已有的正样本,而如果部分正样本标记错误或者是噪声,那么这样的错误或噪声也会被成倍放大,因此过采样的显著缺点就是对正样本过拟合。欠采样通过随机删除负样本来改善样本分布不平衡问题,这种方法的主要缺点是可能丢弃对模型训练很重要的潜在有用数据,导致模型训练的偏差。Smote合成少数过采样通过对正样本聚类后构造新的正样本来增加正样本比例,可以缓解过采样中正样本方差减小的问题,同时也避免了欠采样中可能丢弃重要数据的问题,Smote合成少数过采样的缺点是只能处理连续值变量,不能处理枚举类型变量和缺失值,而人行征信报告中存在大量的枚举类型变量和缺失值,另外,风控建模型中模型的可解释性非常重要,由Smote合成少数过采样构造的样本可能缺乏实际意义,影响模型的可解释性。
发明内容
本申请的目的是提供一种用于在征信风控建模中补充正样本的技术方案。
根据本申请的一个实施例,提供一种用于在征信风控建模中补充正样本的方法,其中,该方法包括:
从本机构的全量征信报告中选择出本机构的未用信用户所对应的多个征信报告;
针对所述多个征信报告中的每个征信报告,对该征信报告中的贷款记录进行解析并判断是否存在逾期贷款记录,若是,记录所述逾期贷款记录对应的明细信息,否则,为该征信报告添加无逾期标记;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210099499.0/2.html,转载请声明来源钻瓜专利网。