[发明专利]一种混合式机器学习信用评分模型构建方法在审
申请号: | 201710101817.1 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106897918A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 兰翔;钟磊 | 申请(专利权)人: | 上海易贷网金融信息服务有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q40/02;G06N99/00 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 郭受刚 |
地址: | 201800 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合式 机器 学习 信用 评分 模型 构建 方法 | ||
技术领域
本发明涉及信用智能评价领域,具体地,涉及一种混合式机器学习信用评分模型构建方法。
背景技术
我国个人零售信贷产业蓬勃发展,在信用卡、住房贷款、汽车贷款、个人助学贷款、耐用消费品贷款等领域,贷款规模不断扩大。机遇伴随风险,在小微信贷产业快速发展的背后,也蕴藏着巨大的风险,特别是信用风险。风险是无法消灭的,只能利用更科学的手段准确地评估风险、以正确的策略有效地控制风险、以最佳的操作全面地管理风险,从而维护金融系统的稳健和安全。
信用评分技术为此而生,它是运用现代的数理统计模型技术,通过对贷款者基本信息、信用历史记录和业务活动记录的深度数据挖掘、分析和提炼,发现蕴藏在纷繁复杂数据中、反应贷款者风险特征和预期信贷表现的知识和规律,预测借款人信用风险值,并通过评分的方式总结出来,作为贷款审批及管理决策的科学依据。
传统信用评分技术,特别是银行业通用的信用评分卡,是以统计思维为内核,采取逻辑回归算法建立的风险预测模型。该算法的优点是简单易用,可解释性强,但局限性有三点,首先是精度不高,其次被拒绝客户的风险表现无法预测,最后高风险客户和低风险客户的划分标准主要是基于经验判断,欠科学。
自互联网技术蓬勃发展以来,线上贷款突飞猛进,借款人数量增大的同时,恶意借款占比也急剧上升,并且线上贷款收集数据非金融特征远多于金融特征,数据样本量和结构复杂度远超以往,传统信用评分技术不再能够有效满足放贷机构的量化风险管理需求。
综上所述,本申请发明人在实现本申请发明技术方案的过程中,发现上述技术至少存在如下技术问题:
在现有技术中,传统信用评分技术存在准确率和效率较差的技术问题。
发明内容
本发明提供了一种混合式机器学习信用评分模型构建方法,解决了传统信用评分技术存在准确率和效率较差的技术问题,实现了通过构建的混合式机器学习信用评分模型,能够高效准确的完成用户信用评价的技术效果。
混合机器学习信用评分能够有效解决传统信用评分卡技术的问题,它是以计算思维为内核,采取机器学习算法,跨越无监督聚类、有监督分类、半监督学习及强化学习等4大领域的全新数据科技应用方法。
在客户类别划分上,采取财务模型嵌入的方式,以贷款毛利为衡量标准对客户分类,使得决策结果更具有业务意义;由于采取高级模型,预测精度远高于传统信用评分卡,另外得益于半监督算法,能够相对科学地预测被拒绝客户信用风险,从而使模型更加全面,具备更好的泛化性能。
本申请提供了一种混合式机器学习信用评分模型构建方法,所述方法包括:
步骤1:基于贷款客户历史数据集确定客户风险分类标准;
步骤2:基于贷款客户历史数据集,通过特征抽取获得贷款客户数据特征集;
步骤3:从备选模型库中选择至少两种模型算法,基于选择的算法建立相应的模型,对建立的模型采用K折交叉检验方法进行模型性能检验,基于模型检验标准对将通过模型性能检验的模型进行标准检验,获得评价指标统计量值,根据各模型标准检验返回的评价指标统计量值大小选取最终建模使用的模型类型;
步骤4:基于选择的模型类型对应的算法,构建信用评分模型。
进一步的,所述方法还包括步骤5,基于建立的信用评分模型,对贷款用户信用进行评分。
进一步的,客户风险分为两类:1和0,1代表高风险客户,0代表低风险客户;首先,对借款人申请信息的分析采取K均值聚类算法,根据数据结构本身的特点,依次将借款人分为3-5簇,对每次分类结果基于业务专家分析进行判断,判断借款人样本类是否属于高风险客户,若属于则直接给该类客户标记为1;然后,以风险加权毛利率为统一标准,对借款人贷后表现做统一评价。
进一步的,从给定样本空间中随机选择k个对象作为初始聚类中心;对于剩余的对象,则根据剩余对象与初始聚类中心的相似度,分别将剩余对象分配给与其最相似的初始聚类中心所代表的聚类;然后再计算每个所获新聚类的聚类中心;不断重复上述过程直到标准测度函数开始收敛为止,算法输出k个簇。
进一步的,风险加权毛利率RWGR=(贷款利率-放款资金成本-坏账率-销售人员提成-逾期还款资金占用成本)/贷款利率;根据贷款机构自身的风险偏好和风险承受度,定下阈值θ∈[0%,100%];
对每任一历史借款人i进行定性评价:
第一步,根据之前聚类计算后得到的划分簇,判断簇中的借款人是否属于高风险客户,若属于则标记为1;
第二步,通过阈值θ进行标记;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易贷网金融信息服务有限公司,未经上海易贷网金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101817.1/2.html,转载请声明来源钻瓜专利网。