[发明专利]一种基于机器学习的信用评分卡开发方法在审
申请号: | 201811618779.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109636591A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈国定;徐英浩 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于机器 评分卡 分箱 变量筛选 定义目标 机器学习 人工效率 输出目标 数据清洗 数据使用 违约概率 分析 转换 大数据 数据源 构建 整合 清洗 标签 开发 学习 审核 信用 优化 | ||
一种基于基于机器学习的评分卡开发方法,包括以下步骤:(1)根据vintage分析来定义目标用户的标签;(2)整合多种数据源获得最后数据;(3)对数据进行探索性分析和数据清洗;(4)对清洗后的数据使用优化后的卡方分箱法分箱;(5)对分箱后的变量进行变量筛选;(6)构建logistics回归模型;(7)对模型进行评价;(8)将模型输出目标用户违约概率转换为分数。本发明利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。
技术领域
本发明涉及一种互联网金融、机器学习、vintage分析、logistics回归模型、计算机应用领域,尤其涉及的是一种基于机器学习的信用评分卡开发方法;
背景技术
随着信用评分模型和信贷行业的飞速发展,模型的建立方法多种多样,从开始的传统统计回归方法,到如今新兴的深度学习算法,并且模型在应用上,从预测违约概率逐渐向信贷各个生命周期渗透,如评分A卡,贷后的B卡,以及后续的C卡。但是一般金融企业的评分卡还是传统的专家型评分卡,既靠经验丰富的专家来制定规则,从而来区分好坏用户,这种方法在早期数据量不大的情况下还是有效果的,但是随着大数据的发展,这种依靠人工专家型的评分卡效率就十分低下,为了解决这种情况,开发基于数据的评分卡就显得十分必要。用基于数据驱动的评分卡来代替效率低下,不易控制的人工审核方式,提高信贷审核的时效性和准确性;
发明内容
为了克服现有技术的不足,本发明提出一种基于机器学习的信用评分卡开发方法,利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。
本发明解决其技术问题所采用的技术方案是:
一种基于机器学习的信用评分卡开发方法,包括以下步骤:
1)目标变量的定义
根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;
2)数据的获取
数据的来源多种多样,包括金融机构自身的字段:如用户的年龄、户籍、性别、收入、负债比、在本机构的借款行为;
还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;
3)EDA探索性数据分析
了解数据的情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况,以便制定数据预处理方案;
4)数据清洗
对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;
5)变量分箱
使用卡方分箱法,并同时兼顾多种业务约束条件,:所述约束条件包括每个组最小样本占比、最大分箱数和woe单调;
改进后变量分箱法的处理过程:
1.输入:分箱的最大区间数n;
2.初始化
i)连续值按升序排序,离散值先转化为坏客户的比率,然后在按升序排序;
ii)为了减少计算量,对于状态数大于某一阈值(100)的变量,利用等频分箱进行粗分箱,对于状态数少于最大区间数的不分箱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811618779.8/2.html,转载请声明来源钻瓜专利网。