[发明专利]一种机器学习模型训练方法及装置在审
申请号: | 202011285117.0 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112308706A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 蒋颖 | 申请(专利权)人: | 深圳市欢太科技有限公司;OPPO广东移动通信有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张静;张颖玲 |
地址: | 518057 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 模型 训练 方法 装置 | ||
本申请实施例提供一种机器学习模型训练方法及装置,所述方法包括:以授信用户的第一训练集中样本的特征为粒度,训练与每个特征分别对应的长短期记忆神经(LSTM)网络模型;以全部所述LSTM网络模型的输出作为第一神经网络模型的输入,获得用于表征所述授信用户的信用的第一概率值;基于所述第一训练集和所述第一概率值,为全部授信拒绝用户的第二训练集中样本打标;针对打标结果确定所述全部授信拒绝用户中的部分授信拒绝用户,基于所述部分授信拒绝用户和所述授信用户的样本数据构成的第三训练集,训练第二神经网络模型;所述第二神经网络模型用于评估用户的信用。
技术领域
本申请涉及无线通信技术领域,尤其涉及一种机器学习模型训练方法及装置。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉技术,在实际工业领域中不断获得应用。
训练机器学习模型的一种方案是,基于训练集中样本的特征(如邮件的标题内容、用户的征信数据等)和分类结果(也称为目标变量,如用户的信用等级)训练机器学习模型,使机器学习模型具有对样本的分类结果进行预测的性能。
例如,使用机器学习模型在征信业务中区分优质客户和非优质客户,在商业中区分客户是否为潜在的流失客户等等。因此,针对征信业务、或信贷业务、或贷中行为评分、贷后C卡开发等金融风控评估中,如何提高评估的可信度、和准确率是一直追求的目标。
发明内容
本申请实施例提供一种机器学习模型训练方法及装置,能够提高信用评估的可信度和准确率。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种机器学习模型训练方法,所述方法包括:
以授信用户的第一训练集中样本的特征为粒度,训练与每个特征分别对应的LSTM网络模型;以全部所述LSTM网络模型的输出作为第一神经网络模型的输入,获得用于表征所述授信用户的信用的第一概率值;基于所述第一训练集和所述第一概率值,为全部授信拒绝用户的第二训练集中样本打标;针对打标结果确定所述全部授信拒绝用户中的部分授信拒绝用户,基于所述部分授信拒绝用户和所述授信用户的样本数据构成的第三训练集,训练第二神经网络模型;所述第二神经网络模型用于评估用户的信用。
在一些可选实施例中,所述以授信用户的第一训练集中样本的特征为粒度,训练与每个特征分别对应的LSTM网络模型包括:
对所述第一训练集中每个特征的样本进行分类;
获取每个样本类别在对应的时间段内的样本数据;
以所述样本数据为输入,训练所述每个特征分别对应的LSTM网络模型。
在一些可选实施例中,所述基于所述第一训练集和所述第一概率值,为全部授信拒绝用户的第二训练集中样本打标,包括:
按照所述第一概率值升序的顺序,对所述第二训练集中的样本等频划分为至少两个样本组;
确定每个样本组的非优质用户率;
基于所述每个样本组的非优质用户率,为所述第二训练集中样本打标。
在一些可选实施例中,所述基于所述每个样本组的非优质用户率,为所述第二训练集中样本打标包括:
标定所述非优质用户率小于或等于第一阈值的样本组内的用户为优质用户;
标定所述非优质用户率大于或等于第二阈值的样本组内的用户为非优质用户;
标定所述非优质用户率大于第一阈值、且小于第二阈值的样本组内的用户为中间层用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市欢太科技有限公司;OPPO广东移动通信有限公司,未经深圳市欢太科技有限公司;OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285117.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食疗用营养粉配方及其制备方法
- 下一篇:一种螺旋搅拌式摊铺与物料转运设备