[发明专利]一种有趋势约束和变量选择的分箱回归方法在审
| 申请号: | 202310002716.4 | 申请日: | 2023-01-03 |
| 公开(公告)号: | CN116362859A | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 贾金柱;陈建;王世今;苏明富 | 申请(专利权)人: | 睿智合创(北京)科技有限公司;北京大学 |
| 主分类号: | G06Q40/03 | 分类号: | G06Q40/03;G06F18/24;G06F18/2113;G06F17/14;G06F17/18 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 郑延斌 |
| 地址: | 100000 北京市密*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 趋势 约束 变量 选择 回归 方法 | ||
本发明提供了一种有趋势约束和变量选择的分箱回归方法,获取用户数据,并进行数据分类,生成多个不同类型用户数据集;通过fused lasso对不同类型用户数据进行变量排序,确定不同类型用户数据的数据趋势;根据所述数据趋势,设定约束项;根据所述约束项,确定符合对用户数据进行信用评估的可选数据变量;将所述可选数据变量通过group lasso进行单变量选择,确定目标变量;将所述目标变量转换为离散变量,将所述离散变量的对应的用户数据进行单变量分箱处理,确定最优分箱结果;根据所述最优分箱结果,对用户进行信用评估。
技术领域
本发明涉及数据处理技术领域,特别涉及一种有趋势约束和变量选择的分箱回归方法。
背景技术
目前,在信用评估等问题中,需要将一些连续型变量如年龄、收入等离散化,然后对不同的离散值分别赋予不同的得分,最后根据得分来评估一个人的信用值。如何对变量进行离散化,是一个很有重要的问题。一个好的离散化对信用建模有重要的影响。传统的离散化通常考虑单个变量和结局(如信用)之间的相关性,采用融合临近值的方法去离散化。实际上离散化的过程就是一个分箱的过程。而分箱的过程,可以使用分段常数函数这一数学模型来刻画。
现有技术中,对于fused lasso以及group selection已经有很多研究,但是fusedlasso主要针对一维信号。Group lasso的研究很丰富,有针对线性回归的,也有针对logistic回归的。当同时有fused lasso惩罚和group lasso的惩罚时,如何对参数求解也是一个未解决的问题。如果再加入一些约束,比如信号是单调的或者信号是U型的,更加难以求解模型的参数,因此,存在人为干预高,自动化低,信息利用率低等特点。
发明内容
本发明提供一种有趋势约束和变量选择的分箱回归方法,用以解决人为干预高,自动化低,信息利用率低的情况。
一种有趋势约束和变量选择的分箱回归方法,包括:
获取用户数据,并进行数据分类,生成多个不同类型用户数据集;
通过fused lasso对不同类型用户数据进行变量排序,确定不同类型用户数据的数据趋势;
根据所述数据趋势,设定约束项;
根据所述约束项,确定符合对用户数据进行信用评估的可选数据变量;
将所述可选数据变量通过group lasso进行单变量选择,确定目标变量;
将所述目标变量转换为离散变量,将所述离散变量的对应的用户数据进行单变量分箱处理,确定最优分箱结果;
根据所述最优分箱结果,对用户进行信用评估。
优选的、所述获取用户数据,并进行数据分类,生成多个不同类型用户数据集,包括:
在不同的不同金融平台对用户的数据进行提取,确定用户数据;其中,
所述用户数据包括:身份信息、收入数据、历史贷款数据和偿还状态数据;
将所述用户数据通过M个不同的过滤器进行特征选择,分别得到M个不同的特征序列;其中,
M为大于等于2的正整数;
所述过滤器包括:身份数据过滤器、收入数据过滤器、历史贷款数据过滤器和偿还状态数据过滤器;
对特征序列中的每个特征进行权重评估,根据评估得分进行降序排列,得到基于权重排序的特征子集;
根据特征子集建立SVM模型,将特征子集作为训练样本,进行训练,利用集成学习策略的两层叠加框架,构建基于多模型融合集成学习的高维不平衡数据分类模型,对用户数据进行分类,生成多个不同类型用户数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于睿智合创(北京)科技有限公司;北京大学,未经睿智合创(北京)科技有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002716.4/2.html,转载请声明来源钻瓜专利网。





