[发明专利]基于机器学习的特征选择方法、装置、设备及存储介质有效
申请号: | 201910342060.4 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110276369B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 陈刚;兰翔;钟磊 | 申请(专利权)人: | 武汉众邦银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 430000 湖北省武汉市黄陂区盘龙城经济开发区汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 特征 选择 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于机器学习的特征选择方法、装置、设备及存储介质,所述方法包括:获取用户的交易数据以及预设个参考特征选择模型;提取所述交易数据中的参考特征信息;通过所述参考特征选择模型对所述参考特征信息进行特征选择;根据选择出的参考特征信息对所述参考特征选择模型进行评分,得到模型评分结果;根据所述模型评分结果选择出目标特征选择模型,将所述目标特征选择模型选择出的参考特征信息作为目标特征信息,从而通过多种模型结合,选择出最优的特征选择模型进特征选择,相较于单一变量选择方法有很大的效率提升,显著提升了模型对变量选择的分类精度和泛化能力。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于机器学习的特征选择方法、装置、设备及存储介质。
背景技术
自互联网技术蓬勃发展以来,线上贷款突飞猛进,借款人数量增大的同时,恶意借款占比也急剧上升,并且线上贷款收集数据非金融特征远多于金融特征,数据样本量和结构复杂度远超以往,传统的评分卡特征选择通常是基于单一算法人工选择特征,比如证据权重值(Weight of Evidence,WOE)值,人工计算强度大,效率低。
发明内容
本发明的主要目的在于提出一种基于机器学习的特征选择方法、装置、设备及存储介质,旨在解决采用传统信用评分技术效率低的技术问题。
为实现上述目的,本发明提供一种基于机器学习的特征选择方法,所述基于机器学习的特征选择方法包括以下步骤:
获取用户的交易数据以及预设个参考特征选择模型;
提取所述交易数据中的参考特征信息;
通过所述参考特征选择模型对所述参考特征信息进行特征选择;
根据选择出的参考特征信息对所述参考特征选择模型进行评分,得到模型评分结果;
根据所述模型评分结果选择出目标特征选择模型,将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。
优选地,所述参考特征选择模型包括单变量回归模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
获取单变量回归模型,根据所述单变量回归模型查找所述参考特征信息的取值范围,根据所述取值范围将所述参考特征信息划分为K个小区间;
从所述小区间中选择参考区间,并获取所述参考区间中的参考特征信息的参考特征个数;
获取所述小区间的区间个数,根据所述区间个数及对应的参考特征个数得到特征容量信息;
根据所述特征容量信息得到特征概率信息,根据所述特征概率信息对所述参考特征信息进行特征选择。
优选地,所述参考特征选择模型还包括相关性模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
获取第一预设变量,根据所述相关性模型评估所述参考特征信息与第一预设变量的相关性;
根据评估结果对所述参考特征信息进行特征选择。
优选地,所述参考特征选择模型还包括预设分组模型,所述预设分组模型包括主要成分分析模型、聚类模型、线性回归模型以及逻辑回归模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
根据所述预设分组模型将所述参考特征信息进行分组;
在所述预设分组模型为主要成分分析模型时,创建预设组件并获取第二预设变量,通过所述预设组件评估分组后的参考特征信息与第二预设变量的相关性,在评估结果满足第一预设条件时对所述参考特征信息进行特征选择;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众邦银行股份有限公司,未经武汉众邦银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910342060.4/2.html,转载请声明来源钻瓜专利网。