[发明专利]一种基于数据遗传变异的样本生成及生存评估方法、装置在审
| 申请号: | 202111551408.4 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114360653A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 郑乐 | 申请(专利权)人: | 四川新网银行股份有限公司 |
| 主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B20/20;G06K9/62 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
| 地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 遗传 变异 样本 生成 生存 评估 方法 装置 | ||
1.一种基于数据遗传变异的样本生成及生存评估方法,其特征在于,具体包括:
亲代样本准备:根据业务场景,获取初始亲代样本;
亲代样本交叉:组合各类初始亲代样本,交叉获得子代样本的标签;
特征遗传:确定子代样本的特征,将特征向量Xi类比DNA链条,设置遗传系数H,两个亲代样本的特征空间Xi随机选取H*i个特征基因进行值交换,生成两个新的子代特征向量Zi,子代样本的特征向量长度和亲代样本保持一致;
特征变异:获取子代样本的特征向量Zi,根据不同的特征分别设置变异系数V,将步骤特征遗传中交换的子代特征向量Zi按变异系数V进行值变换获得子代样本最终特征向量Zi’和子代样本集S1;
静态生存评估:通过不同的交叉变异组合,获得大量的子代样本集S1,对子代样本进行静态生存评估,采用多分类器评估投票的方式,进行静态生产评估,结合多个分类器的投票结果计算分类器通过率,对低通过率的子代样本进行淘汰,保留通过的子代样本集变为S1’;
动态生存评估:对于经过静态生存评估后保留下来子代样本,采用多分类器评估投票的方式,进行多个时间窗口的动态生产评估,结合多个分类器的投票结果计算每个时间窗口的通过率,依次对子代样本每个时间窗口的通过率进行考核,对不满足生存轮次的子代样本进行淘汰,保留通过的子代样本集变为S1’’;
业务建模:在业务建模阶段,在业务建模阶段,针对两轮生存评估后留存下来的子代样本,根据具体场景,制定生存轮次及通过率阈值,规则的样本补充进建模样本里进行业务建模;
循环上述步骤亲代样本准备至业务建模,生成子代样本集S2,并对子代样本集S2中子代样本做所述静态生存评估和动态生存评估,确定淘汰或保留。
2.根据权利要求1所述的一种基于数据遗传变异的样本生成及生存评估方法,其特征在于,所述变异系数V的设置要满足以下两个基本原则:
1)范围合理性原则:对于某比例特征,如果原取值0到1,则变异后的特征取值也需符合0到1;
2)分布保留原则:对符合正态分布的特征,计算出亲代样本特征的标准差为σ,平均值为μ,且已知特征取值落在μ±3σ区间的概率已知为99.73%,则子代特征变异后取值范围应该在μ±3σ之间,保证整个样本群体的特征值不偏离正态分布。
3.根据权利要求1所述的一种基于数据遗传变异的样本生成及生存评估方法,其特征在于,所述静态生存评估分两个阶段,具体为:
一阶段静态生存评估:即根据特征向量的先验经验设置组合规则来剔除部分明显有缺陷的样本;
二阶段静态生存评估:经过一阶段生存评估后,剩余的子代样本需要通过模型评估,结合多个分类器的投票结果计算分类器通过率,设定淘汰阈值,对低通过率的子代样本组进行淘汰,保留通过样本组及对应的分类器通过率,分类器通过率可以做为样本组的T1阶段生存权重,经T1阶段生存评估后剩余子代样本集为S1’。
4.根据权利要求3所述的一种基于数据遗传变异的样本生成及生存评估方法,其特征在于,所述模型评估的方法是:先将D1亲代样本划分为建模数据集train1与测试数据集test1,利用train1训练多个分类器,训练好的分类器在测试集test1上评估效果,评估指标可以选用常用的二分类评估指标AUC,得到的多个分类器AUC结果做为基准,将S1子代样本等分为M组,每组与train1样本合并后同样训练多个分类器,分别在test1上计算AUC,最后在多个分类器上进行前后AUC对比,如果加入子代后AUC有提升,那么该分类器就投1,否则投0,结合多个分类器的投票结果计算分类器通过率,设定淘汰阈值,对低通过率的子代样本组进行淘汰,保留通过样本组及对应的分类器通过率,经T1阶段生存评估后剩余子代样本集为S1’。
5.根据权利要求4所述的一种基于数据遗传变异的样本生成及生存评估方法,其特征在于,所述分类器通过率做为通过子代样本的T2阶段的生存权重,且将所述生存权重作为建模的样本权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111551408.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





