[发明专利]一种基于CNN的人行征信数据风险预测方法及系统在审
| 申请号: | 202310015628.8 | 申请日: | 2023-01-04 |
| 公开(公告)号: | CN116228393A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 游江珊;兰翔;钟磊;刘银龙 | 申请(专利权)人: | 武汉众邦银行股份有限公司 |
| 主分类号: | G06Q40/03 | 分类号: | G06Q40/03;G06Q10/04;G06N3/0464;G06N3/084 |
| 代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 徐金琼 |
| 地址: | 432200 湖北省武汉市黄陂区盘龙城经济开发区汉*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 cnn 人行征信 数据 风险 预测 方法 系统 | ||
本发明公开了一种基于CNN的人行征信数据风险预测方法及系统,属于金融风控技术领域。本发明包括获取用户的人行征信报告数据,并进行数据预处理,包括对异常值、缺失值信息处理,以及好坏样本的定义,其中,用户的人行征信报告数据包括行内授信、用信记录以及用户的银行流水中的信息;基于预处理后的数据进行用户特征矩阵构建,并基于用户特征矩阵构建模型输入矩阵;构建深度卷积神经网络,并基于模型输入矩阵进行训练;基于训练好的深度总卷积网络对待预测的用户的人行征信报告数据的模型输入矩阵进行预测,得到预测结果。本发明用户的用于人行征信数据风险预测。
技术领域
一种基于CNN的人行征信数据风险预测方法及系统,用于用户的人行征信数据风险预测,属于金融风控技术领域。
背景技术
随着生活水平的提高,互联网金融的快速发展给我们的生活带来便利的同时也给金融行业带来了潜在风险,各种失信、欺骗、违规风险等行为日显突出。对金融行业来说,从贷前,贷中,贷后都存在多种多样的风险。
金融机构根据客户的历史授信数据和用信数据建立逾期模型,从而分析新客户贷款后逾期的可能性,即判断该客户的可信度再决定是否放款,以达到降低坏账率和金融机构信贷风险的目的。传统风控模型方法主要是申请评分卡(A卡)模型或者分类模型,具体如图1所示的传统风控模型流程。评分卡和分类模型处理步骤一样,主要区别在模型选择和输出结果上的差异。具体步骤如下:
1、数据获取
获取近几个月内的用户授信、用信数据。
2、好坏样本定义
数据集中的好坏样本定义,表现形式为Y={0,1},好样本(Good)定义为Y=0,坏样本(Bad)定义为Y=1。例如贷款前3期内有一期超过30天未还款的为坏样本,其他为好样本。
3、数据预处理
对数据集中缺省值进行填充,异常值或空值率查过阈值的直接去掉。
4、数据集划分
将数据集按照7∶2∶1的比例划分为训练集,验证集和测试集,划分数据时需要保证训练集中有足够多的坏样本数。
5、特征工程
不论是评分卡模型还是分类模型特征工程的工作量比较大,特征提取的好坏直接影响模型的效果,该过程是需要有一定经验并不断尝试调整。
5.1分箱处理
分箱的本质是离散化连续变量,目的是让拥有不同属性的特征被分成不同的类别。比如按年龄分箱1岁~18岁为未成年人类别为0,19岁~30岁为青年人类别为1,31岁~50岁为中年人类别为2,50岁以上为老年人标记3。
5.2WOE编码(Weight of Evidence证据权重)
WOE适用于二分类问题的特征处理,是对特征的进行编码,对于某个特征使用该特征中Y=1的概率与Y=0的概率的比值的对数代替这个特征的特征值,即“当前特征中坏样本占所有坏样本的比例”和“当前特征中好样本占所有好样本的比例”的差值。计算公式如下
其中,Badi为类别i中标签为1的样本数,goodi为类别i中标签为0的样本数BadT为所有样本中标签为1的样本数,GoodT为所有样本中标签为0的样本数。
5.3IV选择(lnformat ion Value信息价值)
IV是衡量特征预测能力的关键指标,IV和WOE的关系可以表述为:W0E描述了特征和目标变量之间的关系,IV用于衡量这种关系的强弱程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众邦银行股份有限公司,未经武汉众邦银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310015628.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





