[发明专利]允许部分数据源随机缺失的机器学习模型的构建方法在审
申请号: | 202011446009.7 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112541594A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 卫浩;徐志华;江海 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 允许 部分 数据源 随机 缺失 机器 学习 模型 构建 方法 | ||
1.允许部分数据源随机缺失的机器学习模型的构建方法,其特征包括:
步骤A.由处理器通过常规方式将已有的建模样本划分为训练样本和验证样本两部分,分别存储于存储介质的不同存储结构中;
步骤B.将一部分数据源作为缺失数据源;然后分别将所述不同存储结构中的训练样本和验证样本中与所述缺失数据源对应的变量的值设置为缺失;
步骤C.由处理器在存储介质中通过训练样本对已有的机器学习模型进行训练,训练完成后将得到预测模型保存在存储介质中;
步骤D.通过处理器从存储介质中调取预测模型,并通过验证样本计算出预测值,再通过预测值计算出在实际应用中的效果值;
步骤E.人工调整相关参数后再由步骤B开始执行,直到效果值的数量达到预设数量;得到的各效果值分别对应存储在存储介质的相应位置中;
步骤F.将所有效果值中的最大值对应的预测模型作为最终模型。
2.如权利要求1所述的允许部分数据源随机缺失的机器学习模型的构建方法,其特征为:步骤B中,对所述的训练样本,根据预设的抽样比例r进行随机抽样,将训练样本分为抽样样本Train_S1和剩余样本Train_S2两部分,并将抽样样本Train_S1中与所述缺失数据源对应的变量的值设置为缺失;步骤C中所述的训练样本为所述抽样样本Train_S1和剩余样本Train_S2合并后的训练样本总和。
3.如权利要求1所述的允许部分数据源随机缺失的机器学习模型的构建方法,其特征为:步骤B中,将所述的验证样本等分为缺失数据集Test_S1和正常数据集Test_S2两部分,并将缺失数据集Test_S1中与所述缺失数据源对应的变量的值设置为缺失;步骤D中分别通过缺失数据集Test_S1和正常数据集Test_S2得到预测值,然后将得到的两个预测值作为参数计算出在实际应用中的效果值。
4.如权利要求2所述的允许部分数据源随机缺失的机器学习模型的构建方法,其特征为:步骤E中所述的人工调整相关参数,是改变所述训练样本的抽样比例r的值。
5.如权利要求4所述的允许部分数据源随机缺失的机器学习模型的构建方法,其特征为:以网格搜索方式改变所述训练样本的抽样比例r的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011446009.7/1.html,转载请声明来源钻瓜专利网。