[发明专利]支持多数据源的汽车金融风控方法有效
申请号: | 201811493302.1 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109583782B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 施铭铮;刘占辉 | 申请(专利权)人: | 厦门铅笔头信息科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q40/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了支持多数据源的汽车金融风控方法,所述支持多数据源的汽车金融风控方法的实现步骤如下:数据分类,模型训练,数据合并;所述模型训练包括以下步骤:数量确定、权重确定、偏置值设置、初始权重设置、Lw计算、权重标准化和循环,所述数据合并包括以下步骤:公共字段并入、单字段模型训练、单字段合并并入和结果模型训练,该支持多数据源的汽车金融风控方法设计合理,使能够包涵多家汽车融资租赁公司订单数据的平台成为可能。 | ||
搜索关键词: | 支持 多数 汽车 金融 方法 | ||
【主权项】:
1.支持多数据源的汽车金融风控模型,其特征在于,所述支持多数据源的汽车金融风控模型的实现步骤如下:步骤一:数据分类;首先,把汽车金融风控模型分类成5个维度,即贷前数据、贷中数据、反欺诈数据、背景调查数据和历史消费还款数据,每个公司的字段会先分别归类到这5个维度中,每个维度的数据会继续细分,每个维度的数据分类确定后,对原始数据进行切割,首先对表进行横向切割(即按行切割),把不同公司的数据分开到不同的表中,接着再进行纵向切割(即按列切割),把同一公司不同类型的数据切割到相对较小的表中,数据切割完毕之后将会分别放入模型进行训练,每个维度数据的分类如下:①:贷前数据;第一个维度是贷前数据,贷前数据包含公共数据、订单申请流程数据和订单申请结果数据:(a):贷前数据有较多的共有字段,因为贷前包含很多申请人的基础资料,提取贷前每个公司都共有的公共字段,另外,对汽车融资租赁公司的性质进行分类,对平台中的每一个公司按四个方面:车辆类型、车辆用途、渠道模式和租赁类型进行定性,并把这四个方面作为四个共有字段;(b):订单申请流程数据为贷前工单数据;(c):订单申请的结果即申请是通过还是拒绝,订单申请的结果是贷前数据的目标列,这里的目标列指的是机器学习中监督学习的目标列;②:贷中数据;第二个维度是贷中数据,贷中数据又分为还款数据(这是时间序列数据)、车载GPS数据(时间序列数据)和贷中工单数据,贷中数据的目标列是还款数据,表示一个订单是正常还款还是已经逾期或坏账;③:反欺诈数据;第三个维度是反欺诈数据,对于反欺诈,模型的侧重点是搭建人际关系网络,所以可以反映人与人之间关系的数据,比如通话记录,在模型中都被归类为反欺诈数据,对于反欺诈数据的训练是一个无监督学习的过程,所以在反欺诈数据中没有目标列;④:背景调查数据;第四个维度是背景调查数据,背景调查数据分为不良信用记录、司法案例记录、网贷记录和多平台借贷记录等,用第二个维度的目标列,即还款数据,作为这个维度的目标列;⑤:历史消费还款数据;第五个维度是历史消费还款数据,这个维度的数据主要来自与银联的消费和还款数据,同样的用第二个维度的目标列作为这个维度的目标列;步骤二:模型训练;对步骤一中的5个维度分别做模型训练,第一、二、四、五个维度都是监督学习,只有第三个维度是无监督学习,对于反欺诈数据而言,以通话记录数据为例,对一个城市的几千万的通话记录进行数据挖掘,并建立人际关系网络,在这个关系网络中,每个人是一个点,如果两个人有通话记录,那么两个人代表的两个点之间就有一条连线,而每一条连线都是有权重的,权重越高代表两个人联系越紧密,连线的权重是和通话的频率和通话的时间(包括通话的时长和时间点)相关的,然后给人际关系网络中的每个人即每个节点赋上权重值,直观的说,一个有几百个联系人的节点应该会比一个只有几个联系人的节点的权重要高,算法的目标是计算出人际关系网络中每一个节点的最后权重,第三个维度的无监督学习的具体步骤如下:①:数量确定;首先,确定人际关系网络节点的数量,假设有一千万(即107)个节点,那么建一个107X107的矩阵L,并给矩阵中的每个元素设初始值为0;②:权重确定;确定节点连线的权重,连线的权重将会保存在对应的矩阵元素中,这里要说明的是A联系B(记为A→B)和B联系A(记为B→A)是不一样的,并会被保存在各自的矩阵元素中,这里有一个规则是对于每一个节点,进入该节点的连线的权重之和必须等于1,比如说节点A收到来自节点B,C和D的通话次数分别是7次,2次和1次,那么进入节点A的连线的权重可被设为B→A:0.7,C→A:0.2,D→A:0.1,其中0.7+0.2+0.1=1;③:偏置值设置;权重确定完成后,矩阵L中还有大量的零值元素,对所有的零值元素设置一个很小的偏置值;④:初始权重设置;由于目标是确定人际关系网络中节点的最后权重,但是一开始节点的权重是未知的,因此给所有节点设置一个初始权重,最直接的方法是先给每个节点设置相同的权重,这里同样需要遵守的一个规则就是所有节点的权重之和等于1,这样对于107个节点,给每个节点设置的权重值为10‑7,最后得到一个1X107的向量w;⑤:Lw计算;计算Lw并得到一个新的权重向量,把新的权重向量再次赋值给w,记为w=Lw,其中Lw是矩阵L和向量w的内积;⑥:权重标准化;对新的权重向量w进行标准化,即让权重向量w中的元素之和等于1,把标准化后的权重向量赋值给w,记为w=w/sum(w);⑦:循环;循环⑤和⑥直到收敛,所述收敛指的是两次迭代计算得到的权重向量w之差低于一个预设的阈值;步骤三:数据合并;不同公司的数据可分为公共字段和独有字段,独有字段比公共字段要多很多,不同公司的独有字段的字段名称和含义都是各不相同的,公共字段能够直接合并,独有字段不能直接合并,否则会导致无法建模的,将不同公司的公共字段和独有字段分别建表,然后建一张总表,记为z,数据合并的步骤如下:①:公共字段并入;将不同公司的公共字段表直接并入表z;②:单字段模型训练;对不同公司的独有字段表进行模型训练;③:单字段合并并入;将不同公司的同一类型的独有字段表的模型训练结果字段合并放入表z的同一个字段,最后的结果将是包含所有公共字段和所有分类数据输出字段的表z;④:结果模型训练;将表z会被放入模型进行训练得到输出字段,总表z输入模型训练后得到的结果不一定是最后的结果,这个总表可能是上一层模型的一个子表,根据实际的建模需求,数据很可能被分为多层,比如3,4,或5层等,这里只描述了一个两层的结构以简化讨论且不失一般性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门铅笔头信息科技有限公司,未经厦门铅笔头信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811493302.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理