[发明专利]分类模型的训练方法、装置、计算机设备及存储介质在审
申请号: | 202110224325.8 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112926663A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 喻晨曦 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 代文成 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
1.一种分类模型的训练方法,其特征在于,所述方法包括:
从历史数据中获取针对同一风控场景的风险训练样本和非风险样本,所述非风险样本的数量大于所述风险训练样本的数量;
根据用户的输入确定所述分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,所述基分类器的数量至少为两个;
从所述非风险样本中随机抽取第一基分类器的第一非风险训练样本,将所述第一非风险训练样本与所述风险训练样本的合集作为所述第一基分类器的第一训练样本;
根据当前基分类器及在先基分类器对每个所述非风险样本的输出结果,计算各所述非风险样本在当前基分类器下的损失,当所述基分类器的数量为两个或所述当前基分类器表示第二基分类器时,所述在先基分类器表示所述第一基分类器;
根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱;
计算在当前基分类器下各箱的权重;
根据各箱的权重和所述风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,将所述当前非风险训练样本与所述风险训练样本的合集作为所述当前基分类的训练样本;
通过所述第一训练样本对所述第一基分类器进行训练,通过所述当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
2.根据权利要求1所述的分类模型的训练方法,其特征在于,通过以下公式计算所述当前基分类器及在先基分类器对每个所述非风险样本的输出结果:
其中,Fi(x)表示根据当前第i个基分类器及在先基分类器对所述非风险样本x的输出结果,x表示所述非风险样本,i表示当前第i个基分类器,j=i-1,f(x)表示基分类器。
3.根据权利要求1所述的分类模型的训练方法,其特征在于,所述计算在当前基分类器下各箱的权重的步骤包括:
计算各箱中包括的非风险样本的平均难度贡献;
根据当前基分类器的排序序号更新自调节因子;
根据所述平均难度贡献和所述自调节因子计算在当前基分类器下各箱的权重。
4.根据权利要求3所述的分类模型的训练方法,其特征在于,通过以下公式计算各箱中包括的非风险样本的平均难度贡献:
其中,hl表示计算得到的箱l的平均难度贡献,Bl表示第l个箱,s表示箱Bl中包括的非风险样本,表示箱Bl中包括的非风险样本的数量,H表示难度分布函数,xs表示非风险样本,ys表示所述非风险样本xs的真实取值,Fi表示根据当前第i个基分类器及在先基分类器对所述非风险样本xs的输出结果。
5.根据权利要求4所述的分类模型的训练方法,其特征在于,通过以下公式更新该自调节因子:
其中,α表示所述自调节因子,n表示所述基分类器的总数量,i表示当前第i个基分类器;
通过以下公式计算在当前基分类器下各箱的权重:
6.根据权利要求5所述的分类模型的训练方法,其特征在于,通过以下公式计算从各箱中抽取的非风险训练样本的数量:
其中,Wl表示计算得到的从箱l中抽取的非风险训练样本的数量,m表示箱l中的非风险训练样本,pm表示通过Fi(x)输出的非风险训练样本m的概率,pl表示箱l的权重,Wp表示所述风险训练样本p中包括的样本数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110224325.8/1.html,转载请声明来源钻瓜专利网。