[发明专利]一种基于数据遗传变异的样本生成及生存评估方法、装置在审
| 申请号: | 202111551408.4 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114360653A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 郑乐 | 申请(专利权)人: | 四川新网银行股份有限公司 |
| 主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B20/20;G06K9/62 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
| 地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 遗传 变异 样本 生成 生存 评估 方法 装置 | ||
本发明公开了一种基于数据遗传变异的样本生成及生存评估方法、装置,属于计算机技术领域,技术方案包括:亲代样本准备、亲代样本交叉、特征遗传、特征变异、一级静态生存评估、二级静态生存评估、动态生存评估以及业务建模;循环上述步骤,生成子代样本集S2,并对子代样本集S2中的子代样本做静态生存评估和动态生存评估,确定淘汰或保留。其目的在于,在业务早期就可以获得足以建模的样本,使得模型的建立效果更好,这样更有利于降低业务风险,提高金融机构的盈利能力。
技术领域
本发明属于计算机技术领域,具体涉及一种基于数据遗传变异的样本生成及生存评估方法、装置。
背景技术
机器学习目前的应用场景已经非常广泛,金融、通信、医疗、交通、电商等等,在很多新业务开启阶段,都会有一段时期的冷启动阶段,该阶段由于缺乏样本或只有少量样本,很难应用机器学习的方法来构建模型。
最典型的是金融机构如何在目标场景业务初始时,根据已有少量的客户信息,来做出一个区分客户好坏的评分模型,对于这种情况,目前采用的一般性方法有:
1.相近业务样本扩充。例如目标是为车贷业务建立评分模型,但是样本不足,于是选用其他近似业务,如消费贷的样本作为补充,扩充原车贷样本数量。这种办法可以缓解样本不足问题,但是怎么确定相近业务,选哪些样本,常常是需要人为规则来定,存在一定的不确定性,往往‘相近客群’的实际特征空间分布与目标业务客群差异非常大,效果无法预期。
2.样本采样,例如随机过采样,随机降采样等方法处理样本不平衡问题,本质上并没有增加新的样本,而是通过采样的方式,复制或者缩减样本,把训练样本的正负比例调均衡。
3.SMOTE方法,处理流程是:选择一个少数类别的特征空间找到它的k个最近邻,选择这些邻居中的一个,并在连接所考虑的点和它所选择的邻居的线上的任何地方放置一个合成点。人工合成点本质上并没有完全脱离少数类别样本的特征空间范围,如果少数类别样本随着时间的推移,特征空间本身会发生较大变化,SMOTE效果通常会打折扣。
4.拒绝推断,这是在金融信贷领域常见的一个扩充样本的场景。客户申请贷款后被拒绝,金融机构获得这个客户的特征信息,但是无法获知客户未来的标签表现,需要通过拒绝推断来合理推测这个客户的标签。拒绝推断方法很多,根据不同的场景效果不一,没有公认有效的通用方案。
发明内容
为了解决了现有技术存在缺乏样本或只有少量样本,很难应用机器学习的方法来构建模型的问题,本发明提供了一种基于数据遗传变异的样本生成及生存评估方法、装置,其目的在于,在业务早期就可以获得足以建模的样本,使得模型的建立效果更好,这样更有利于降低业务风险,提高金融机构的盈利能力。
本发明采用的技术方案如下:
一种基于数据遗传变异的样本生成及生存评估方法,具体包括:
亲代样本准备:根据业务场景,获取初始亲代样本;
亲代样本交叉:组合各类初始亲代样本,交叉获得子代样本的标签;
特征遗传:确定子代样本的特征,将特征向量Xi类比DNA链条,设置遗传系数H,两个亲代样本的特征空间Xi随机选取H*i个特征基因进行值交换,生成两个新的子代特征向量Zi,子代样本的特征向量长度和亲代样本保持一致;
特征变异:获取子代样本的特征向量Zi,根据不同的特征分别设置变异系数V,将步骤特征遗传中交换的子代特征向量Zi按变异系数V进行值变换获得子代样本最终特征向量Zi’和子代样本集S1;
静态生存评估:通过不同的交叉变异组合,获得大量的子代样本集S1,对子代样本进行静态生存评估,采用多分类器评估投票的方式,进行静态生产评估,结合多个分类器的投票结果计算分类器通过率,对低通过率的子代样本进行淘汰,保留通过的子代样本集变为S1’;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111551408.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





