[发明专利]特征数据项筛选方法、装置及电子设备在审
申请号: | 202210106880.5 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114444601A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 顾凌云;王震宇;莫梓瀚;周轩 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨国瑞 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 数据项 筛选 方法 装置 电子设备 | ||
本申请提供的特征数据项筛选方法、装置及电子设备,通过在进行特征数据项筛选时,选择使用无放回自抽样方法结合Lasso逻辑回归方法筛选出区分能力强且区分能力稳定的特征集合,最后从特征集合中筛选符合业务逻辑的特征作为最优特征集。如此,可以更快找到无多重共线性问题的特征组合,快速找到区分能力强且区分能力稳定的特征,并且提高最终模型的泛化能力。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种特征数据项筛选 方法、装置及电子设备。
背景技术
随着大数据分析技术的发展,大数据分析被广泛地应用在各行各业。 例如,在金融领域的一些场景中需要根据用户的各种用户特征数据(如, 用户的年龄、工作类型、收入、历史借贷情况等)进行大数据分析,以预 测用户是否存在还贷风险。但是,在分析过程中,不同用户特征项目之间 可能存在冗余或不具有分析意义的特征项,为了提高数据分析效率,减少 不必要运算资源浪费,通常需要筛选有意义的用户特征进行建模分析。现 有技术在搭建逻辑回归模型时,普遍使用逐步回归方法进行特征的筛选, 该方式在面对风控场景下的高维数据时需要耗费大量的算力。并且,因为 该方式一般以最优化AUC为准则选择特征,这些方式建立的模型存在过拟 合以及多重共线性的问题。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种特征数 据项筛选方法,所述方法包括:
获取第一训练样本集,所述第一训练样本集包括多个用户样本,每个 所述用户样本包括样本标签及多个用户特征数据项,其中,所述样本标签 表征具有还贷逾期记录的用户样本为正样本,所述样本标签表征不具有还 贷逾期记录的用户样本为负样本;
计算所述第一训练样本集中各所述用户特征数据项的假设检验机率值, 并剔除所述假设检验机率值大于第一设定阈值的用户特征数据项,获得新 的第一训练样本集;
以所述第一训练样本集为基础,分别进行多次无放回的随机自抽样, 获得第一预设数量个第二训练样本集;
随机确定第二预设数量个惩罚值,并分别根据各所述惩罚值建立第二 预设数量个Lasso逻辑回归模型;
分别将每个所述第二训练样本集输入各所述Lasso逻辑回归模型进行 特征筛选,获得第三预设数量个第三训练样本集,所述第三预设数量等于 所述第一预设数量和第二预设数量的乘积;
计算获得各所述第三训练样本集中各所述用户特征数据项对应的信息 值变化趋势;
将所述信息值变化趋势符合设定变化趋势特征的所述用户特征数据项 标识为目标用户特征数据项。
在一种可能的实现方式中,所述计算所述第一训练样本集中各所述用 户特征数据项的假设检验机率值的步骤之前,所述方法还包括:
计算所述第一训练样本集中各所述用户特征数据项的特征缺失率,并剔 除所述特征缺失率高于一定第三设定阈值的用户特征数据项。
在一种可能的实现方式中,所述计算所述第一训练样本集中各所述用户 特征数据项的假设检验机率值的步骤,包括:
针对数值为连续数值型的第一用户特征数据项,计算所述第一用户特征 数据项的非参检验的假设检验机率值;
针对数值为分类型的第二用户特征数据项,计算所述第二用户特征数据 项的卡方检验的假设检验机率值。
在一种可能的实现方式中,所述随机确定第二预设数量个惩罚值,并分 别根据各所述惩罚值建立第二预设数量个Lasso逻辑回归模型的步骤,包 括:
从ln(0.001)到ln(1000)中随机确定10个值作为所述惩罚值,并根据确 定出好的10个所述惩罚值分别建立10个Lasso逻辑回归模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210106880.5/2.html,转载请声明来源钻瓜专利网。