[发明专利]一种基于元学习和改进的Catboost算法的债券违约预测方法在审
申请号: | 202210502069.9 | 申请日: | 2022-05-10 |
公开(公告)号: | CN114881797A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 张永全;杨秀银;武鑫 | 申请(专利权)人: | 浙江财经大学 |
主分类号: | G06Q40/06 | 分类号: | G06Q40/06;G06Q10/04;G06K9/62 |
代理公司: | 杭州兴知捷专利代理事务所(特殊普通合伙) 33338 | 代理人: | 林振兴 |
地址: | 310012 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 改进 catboost 算法 债券 违约 预测 方法 | ||
1.一种基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:该方法包括如下步骤:
步骤一:数据预处理
(1.1)将债券违约相关数据集作为输入,首先进行缺失值的处理,采取K近邻算法进行缺失值的填补;
(1.2)对进行过缺失值处理后的数据进行最大最小归一化的标准化处理;
步骤二:特征工程
(2.1)对进行预处理后的数据集采用基于元学习的显式梯度数据增强(EGLA)进行不平衡数据的处理;
(2.2)对于经过不平衡处理后的数据,绘制相关系数的热力图判断解释变量之间的相关系数,采取措施消除共线性,剔除其中一个特征;
(2.3)对删除部分共线性特征后的数据使用随机森林算法来对特征变量的重要性进行筛选留信息增益值排名前20的特征变量;
(2.4)将经过相关分析和随机森林筛选的数据作为模型的最终输入;
步骤三:债券违约预测
(3.1)对上述得到的数据集,进行训练集和测试集的划分;
(3.2)利用改进的Catboost算法模型进行训练预测。
2.根据权利要求1所述的基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:通过复制位于高不确定性区域的少数类样本实例来合成新的样本,复制其中训练集中的实例来实现得到新数据集Zsynth,即Dsynth=(Zsynth,Ysynth),具体有:
Dsynth={(x,y)∈Dtrain|y=1,Cθ(x)≤c};
通过复制Dtrain中的实例来实现合成集Dsynth的初始化,而复制的少数类的样本由初始分类器模型Cθ确定。
3.据权利要求1所述的基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:对分类器模型Cθ进行训练,具体的梯度更新为:
其中η1为步长;通过计算Zsynth上的损失函数并执行一个或者多个梯度下降更新来实现分类器模型Cθ的决策边界的调整。
4.据权利要求1所述的基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:所述的步骤二(2.1)中:在验证集Dvalid上计算分类器的损失,即L(Dvalid;Cθ),并通过计算损失执行梯度下降来改变Zsynth的值;Zsynth的具体更新为:
其中η2为步长,上述两个更新进行相互迭代,逐步将复制的少数类样本移动到更好的决策边界区域。
5.据权利要求1所述的基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:用梯度均衡机制(GHM)来高效训练模型;最终的梯度密度调和后的分类损失为:
其中,gk表示第k个样本的模长,lε(g)表示计算样本量在此邻域的区间长度,δε(gk,g)表示x是否在y的一个邻域内,求和后的含义为gk在g范围内的样本数目。
6.据权利要求1所述的基于元学习和改进的Catboost算法的债券违约预测方法,其特征在于:所述的步骤二(3.1)中:为近似的获得梯度密度,采用单位区域上应用滑动平均(EMA)的方法,具体得到损失函数的估计式为:
在求取近似的梯度密度的时候不仅用到了当前的梯度信息,还用到了第t-1次迭代的梯度信息,通过滑动系数α加权来调整梯度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江财经大学,未经浙江财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210502069.9/1.html,转载请声明来源钻瓜专利网。