[发明专利]允许部分数据源随机缺失的机器学习模型的构建方法在审
申请号: | 202011446009.7 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112541594A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 卫浩;徐志华;江海 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 允许 部分 数据源 随机 缺失 机器 学习 模型 构建 方法 | ||
本发明涉及允许部分数据源随机缺失的机器学习模型的构建方法,包括:步骤A.将建模样本划分为训练样本和验证样本两部分;步骤B.将一部分数据源作为缺失数据源;分别将训练样本和验证样本中与缺失数据源对应的变量的值设置为缺失;步骤C.通过训练样本对机器学习模型进行训练,得到预测模型;步骤D.调取预测模型通过验证样本计算出预测值,再通过预测值计算出在实际应用中的效果值;步骤E.调整相关参数后再由步骤B开始执行;步骤F.将所有效果值中的最大值对应的预测模型作为最终模型。本发明能够使得机器学习模型在数据源发生随机缺失时仍能最大化模型效能,从而提高模型预测效果,由此保持了业务连续性、提高模型的可服时间。
技术领域
本发明涉及机器学习模型的构建方法,具体讲是允许部分数据源随机缺失的机器学习模型的构建方法。
背景技术
近年来随着人工智能技术的发展,机器学习模型被广泛应用于各个领域。机器学习模型通常是基于不同数据源的大数据来构建,机器学习模型的输入变量由不同的数据源的众多变量构成。
在机器学习模型应用于在线数据决策场景中,由于网络通信、数据传输系统故障等各方面原因,机器学习模型的数据源会有随机中断的情况发生,此时数据源的中断将导致该数据源下所有的变量变为缺失状态。
按照传统的机器学习模型构建方式,当数据源发生随机缺失时将导致机器学习模型的预测能力大幅下降,或导致机器学习模型不可用,从而导致机器学习模型停服。此时采用的措施包括让业务中断运行或采用其他备份方案。因此,如何构建对数据源随机缺失容忍度高的机器学习模型,让机器学习模型在一定范围内能够容忍数据源随机缺失,以保证业务运行的连续性是机器学习模型构建时需要考虑的重要问题。
发明内容
本发明提供了一种允许部分数据源随机缺失的机器学习模型的构建方法,以使机器学习模型在数据源发生随机缺失时仍能最大化模型效能,并保持业务连续性,提高模型的可服时间。
本发明允许部分数据源随机缺失的机器学习模型的构建方法,包括:
步骤A.由处理器通过常规方式将已有的建模样本划分为训练样本和验证样本两部分,分别存储于存储介质的不同存储结构中;
步骤B.将一部分数据源作为缺失数据源;然后分别将所述不同存储结构中的训练样本和验证样本中与所述缺失数据源对应的变量的值设置为缺失;
步骤C.由处理器在存储介质中通过训练样本对已有的机器学习模型进行训练,训练完成后将得到预测模型保存在存储介质中;
步骤D.通过处理器从存储介质中调取预测模型,并通过验证样本计算出预测值,再通过预测值计算出在实际应用中的效果值;
步骤E.人工调整相关参数后再由步骤B开始执行,直到效果值的数量达到预设数量;得到的各效果值分别对应存储在存储介质的相应位置中;
步骤F.将所有效果值中的最大值对应的预测模型作为最终模型。
所述的存储介质可以是内存,也可以是硬盘等现有的具有存储功能的物理介质。并且在步骤E中的各效果值可以是以数组结构的形式保存在存储介质中,也可以堆栈或离散等数据结构进行存储,在此不做限定。
通过本发明使机器学习模型能够包容部分数据源的缺失并实现模型功能,不会因为数据源的缺失而导致机器学习模型预测能力的大幅下降,从而保证了相关业务的连续性。
具体的,步骤B中,对所述的训练样本,根据预设的抽样比例r进行随机抽样,将训练样本分为抽样样本Train_S1和剩余样本Train_S2两部分,并将抽样样本Train_S1中与所述缺失数据源对应的变量的值设置为缺失;步骤C中所述的训练样本为所述抽样样本Train_S1和剩余样本Train_S2合并后的训练样本总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011446009.7/2.html,转载请声明来源钻瓜专利网。