[发明专利]模型训练方法及装置在审
申请号: | 202310244801.1 | 申请日: | 2023-03-14 |
公开(公告)号: | CN116166964A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 陈子祺 | 申请(专利权)人: | 北京银行股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2411;G06Q40/03;G06N20/10 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张文华 |
地址: | 100033 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 | ||
本申请公开了一种模型训练方法及装置。其中,该方法包括:获取初始训练样本集,其中,初始训练样本集中包括多组初始训练样本,每组初始训练样本中包括:目标对象的银行个人信息;采用虚拟样本生成算法对初始训练样本集进行模拟,生成初始训练样本集的第一虚拟样本集,并将第一虚拟样本集添加至初始训练样本集中,得到目标训练样本集;基于预设的分类器对目标训练样本集进行划分,得到用于训练目标模型的正类样本集和负类样本集;通过正类样本集和负类样本集对目标模型进行训练,得到训练后的目标模型。本申请解决了相关技术在进行模型训练过程中难以有效提升模型输出结果的准确度的技术问题。
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种模型训练方法及装置。
背景技术
目前银行系统中开始大范围使用机器学习技术辅助行内工作的运作。例如,在汽车金融贷中应用了汽车金融贷评分模型,以根据客户信息,通过机器学习对用户进行贷前评分。
然而在对贷款业务相关模型进行训练过程中,输入至相关模型的特征通常会涉及到不同类型的客户账户余额、信用额度、从事行业等,由于账户余额涉及的范围广、城镇客户和村镇客户的信用额度差异明显、从事不同行业人员的分布不均等原因,使得模型进行训练的样本数据集质量较低、分布不均匀,进而导致最终模型输出结果的准确度较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种模型训练方法及装置,以至少解决相关技术在进行模型训练过程中难以有效提升模型输出结果的准确度的技术问题。
根据本申请实施例的一个方面,提供了一种模型训练方法,包括:获取初始训练样本集,其中,初始训练样本集中包括多组初始训练样本,每组初始训练样本中包括:目标对象的银行个人信息;采用虚拟样本生成算法对初始训练样本集进行模拟,生成初始训练样本集的第一虚拟样本集,并将第一虚拟样本集添加至初始训练样本集中,得到目标训练样本集;基于预设的分类器对目标训练样本集进行划分,得到用于训练目标模型的正类样本集和负类样本集;通过正类样本集和负类样本集对目标模型进行训练,得到训练后的目标模型。
可选地,获取初始训练样本集,包括:获取目标对象的银行个人信息,将每个目标对象的银行个人信息作为一组初始训练样本,得到初始训练样本集,其中,银行个人信息中包括以下至少之一:账户余额、信用额度、从事行业。
可选地,采用虚拟样本生成算法对初始训练样本集进行模拟,生成初始训练样本集的第一虚拟样本集,包括:对于每组初始训练样本,采用虚拟样本生成算法生成初始训练样本的最近邻居;将初始训练样本和初始训练样本的最近邻居的连线上的任意一点作为虚拟样本;基于每组初始训练样本的虚拟样本确定初始训练样本集的第一虚拟样本集。
可选地,在采用虚拟样本生成算法对每组初始训练样本进行模拟,生成每组初始训练样本的虚拟样本之后,该方法还包括:确定初始训练样本和虚拟样本的相对误差;判断相对误差是否小于预设阈值,其中,在相对误差小于预设阈值时,确定保留虚拟样本;在相对误差不小于预设阈值时,确定删除虚拟样本。
可选地,基于预设的分类器对目标训练样本集进行划分,得到用于训练目标模型的正类样本集和负类样本集,包括:采用分类算法将目标训练样本集划分为预设数量个子训练样本集;建立每个子训练样本集的分类器,其中,分类器用于确定每个子训练样本集中的正样本和负样本;基于分类器对目标训练样本集进行划分,得到用于训练目标模型的正类样本集和负类样本集。
可选地,在得到训练后的目标模型之前,该方法还包括:基于超参优化算法对目标模型的模型参数进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京银行股份有限公司,未经北京银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310244801.1/2.html,转载请声明来源钻瓜专利网。