[发明专利]一种基于集成树特征提取和Logistic回归的个人信用风险评估方法在审
申请号: | 202010492038.0 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111652710A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 刘佳明;刘佳佳;李想;范皓玥 | 申请(专利权)人: | 北京化工大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100029 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 特征 提取 logistic 回归 个人 信用风险 评估 方法 | ||
本发明公开了一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,属于提高个人信用风险评估性能的分类技术,包括:数据收集:获取用户的历史信贷数据作为初始数据集;数据预处理:对初始数据集中的缺失值和异常值进行预处理;数据划分:从违约和未违约比率,以及训练集和测试集比率对数据集进行划分;特征提取:采用集成树模型,包括GBDT、XBGoost和LightGBM三个梯度提升决策树,实现特征的转化和提取;特征融合:对GBDT、XBGoost和LightGBM三个梯度提升决策树提取出的特征进行融合,得到新的特征集合;模型评估:采用新特征集合建立Logistic回归模型,并评价模型的分类效果。实验结果表明,该方法具有优良的个人信用风险评估性能,并且该方法的分类效果稳健。本发明的方法可以用于商业银行等信用风险评估领域中,是一类有效的风险管理工具。
技术领域
本发明涉及个人信用评估领域,具体涉及一种基于集成树特征提取和Logistic回归的个人信用风险评估方法。
背景技术
个人信用风险评估是商业银行、网上银行等金融载体信贷风险管理的重要内容。个人信用风险评估主要通过大量的客户历史信贷数据信息,借助于统计或机器学习方法,构建信用风险评估模型。进而根据新申请人的相关信息,通过信用风险评估模型来识别新申请人或新申请贷款在未来一段时间内是否会存在违约的风险。
目前已经有一些基于统计或机器学习模型对个人信用风险进行评估,其中,集成树是一种常用的分类预测模型,具有较好的分类和预测能力。Ma等人用LightGBM和XGBoost集成树模型研究了个人信贷风险评估模型(Xiaojun M,Jinglan S,Dehua W,et al.Studyon A Prediction of P2P Network Loan Default Based on the Machine LearningLightGBM and XGboost Algorithms according to Different High Dimensional DataCleaning[J].Electronic Commerce ResearchApplications,2018:S156742231830070X-.),采用的技术与本发明具有相似之处,但是本发明使用集成树的方式与该研究完全不同。Ma等人的研究仅局限于采用了两类集成树模型对个人的信用风险进行评估,但是没有考虑LightGBM和XGBoost等集成树模型在特征转换和特征提取方面的重要作用和功效,所以没有充分挖掘特征集中存在的非线性关系和有效分类信息。本发明则综合考虑了GBDT、XBGoost和LightGBM三类集成树模型在特征转换和提取方面的作用,将转化后的特征进行融合再建模,实现对个人信贷风险的评估。这是因为集成树具备良好的数据表征能力,即通过决策树的树型结构对初始样本进行特征空间的转换,使得经过集成树转化后的数据具有更显著的分类能力,再借助于其它分算法建立模型,从而提升模型整体的分类性能。
综上,现有技术仍有以下不足:1)当前信用风险评估模型大多直接应用原始特征或仅采用特征选择建立信用风险评估模型,而忽略了特征的非线性特点。信用评估数据通常因为其具有高维度特征的数据结构特点,存在特征与特征、特征与违约状态之间的非线性关系,为精准判断贷款者的信用状态带来困难;2)当前研究大多采用单一模型进行信用风险评估,使得模型的评估结果存在进一步提升的空间。
发明内容
本发明的主要目的:本发明提供一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,通过先采用集成树对初始特征进行转换,再使用转换特征进行分类的模型框架,克服了当前信用评估模型没有充分利用数据特征之间存在的非线性特征的能力,挖掘了特征之间的非线性关系,提升了线性模型的分类能力,取得了更好的信用评分分类结果。
本发明采用的技术方案:
本发明提供了一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京化工大学,未经北京化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492038.0/2.html,转载请声明来源钻瓜专利网。