[发明专利]建立互联网金融风控模型的方法在审
申请号: | 201811545946.0 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109492712A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 刘云翔;韩贝;徐琛;李晓丹 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 风控 决策树 互联网 金融 决策树模型 多值属性 预警模型 统计学 边界点 传统的 预测 度量 算法 判定 改进 | ||
本发明提供了一种建立互联网金融风控模型的方法,本发明通过改进C4.5决策树利用Fayyad边界点判定定理,减少挑选属性最优阈值所用的计算时间,减少整体的运行时间。利用统计学中的相关系数克服多值属性偏向问题,提高决策树预测精确度,将每个属性与黑名单判别的相关程度作为属性的选择度量。将这种改进了的C4.5算法用于生成互联网金融风控预警模型。主要解决了传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
技术领域
本发明涉及一种建立互联网金融风控模型的方法。
背景技术
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对RossQuinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
但是,传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
发明内容
本发明的目的在于提供一种建立互联网金融风控模型的方法,能够解决传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
为解决上述问题,本发明提供一种建立互联网金融风控模型的方法,包括:
结合统计学中相关系数理论,得出条件属性与决策属性之间的相关系数,根据相关系数的大小得出所述条件属性与决策属性之间的相关性大小;
分析数据来源,利用所述条件属性与决策属性之间的相关性大小,确定影响黑名单判别的重要影响因子,选出所述重要影响因子作为决策属性并放入数据集;
根据所述得出的所述条件属性与决策属性之间的相关性大小,并利用最大相关系数值的属性作为根结点,采用预设方法递归建立决策树的子结点,以形成决策树;
利用悲观剪枝算法对所述形成的决策树进行剪枝,形成简洁的决策树;
基于所述简洁的决策树建立互联网金融风控模型。
进一步的,在上述方法中,根据如下公式,得出条件属性与决策属性之间的相关系数:
令
公式中,Ak表示为决策树中不同的条件属性。B为决策树中的决策属性。Cov(Ak,B)为Ak与B的协方差。D(Ak)为Ak的方差。D(B)为B的方差。wk成为衡量决策属性和条件属性间相关程度的一种指标。
进一步的,在上述方法中,所述预设方法包括:
结合Fayyad边界点判定定理,计算所述数据集中每个决策属性的信息增益率,选择每个决策属性中分割点处最大的信息增益率作为该决策属性分割点。
进一步的,在上述方法中,所述信息增益率的定义如下:GainRate(A)=Gain(A)/SplitInfoA(D),其中,
C4.5决策树使用信息增益率克服数据的偏倚,使用分裂信息的值将信息增益规范化,所述分裂信息类似于Info(D)定义如下:
公式中,D为标记类元组的训练集。A为划分D中元组的属性。V为属性A元组D划分为不同的分区或子集{D1,D2,...,Dv}。其中,项充当第j个分区的权重,SplitInfoA(D)是基于按A划分对D的元组分类所需要的期望信息,需要的期望信息越小,分区的纯度越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811545946.0/2.html,转载请声明来源钻瓜专利网。