[发明专利]一种基于特征维度的机器学习模型优化的方法及装置在审
| 申请号: | 202211725208.0 | 申请日: | 2022-12-30 |
| 公开(公告)号: | CN115905875A | 公开(公告)日: | 2023-04-04 |
| 发明(设计)人: | 金肖;谷晓磊 | 申请(专利权)人: | 浙江大学嘉兴研究院 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214 |
| 代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈;唐银益 |
| 地址: | 314031 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 维度 机器 学习 模型 优化 方法 装置 | ||
1.一种基于特征维度的机器学习模型优化方法,其特征在于,包括:
获得至少2个以上特征维度与1个标签维度的数据;
通过皮尔逊相关系数算法获得每个特征维度和标签维度数据的相关性系数;
根据所获得每个特征维度和标签维度数据的相关性系数删除所有小于阈值的所有特征维度,得到筛选后剩余的特征维度;所述的筛选后剩余的特征维度为至少2个以上;
根据筛选后剩余的特征维度展开随机排列组合,组合为不同的特征维度组合,每一种特征维度组合的数据与所对应的标签维度数据都构成一种新的数据集,即组合为不同的数据集;
根据所形成新的数据集划分为至少2个以上不同的训练集和测试集;
根据划分好的训练集和测试集,每一对训练集和测试集都通过K折交叉验证的方式训练机器学习模型,得到K个预测结果;
根据不同的数据集统计出当前特征维度组合内的特征维度个数;
根据K个预测结果计算出当前机器学习模型的查准率、查全率和F1值;
根据训练集的特征维度个数和模型的F1值,筛选掉异常的F1值后,选择出剩余F1值最大的特征维度个数n;
根据划分为至少2个以上不同的训练集和测试集中的所有训练集中的特征维度和所有模型的F1值进行统计多个训练集的特征维度,得到多个Top榜单;
根据多个Top榜单的数据,结合权重公式,计算出每一种特征维度的重要性系数;
根据重要性系数从大到小排序,最终确定前n个特征维度作为机器学习模型训练的数据集。
2.根据权利要求1所述的基于特征维度的机器学习模型优化方法,其特征在于,所述的根据所形成新的数据集划分为至少2个以上不同的训练集和测试集,具体为:
在数据集划分为至少2个以上不同的训练集和测试集之前,根据数据的应用场景,将数据先依据其特征列细分到组,以组为单位进行划分不同的训练集和测试集,通过双重交叉验证的方式可以从有限的数据中获取尽可能多的有效信息以及一定程度上减少机器学习模型的过拟合。
3.根据权利要求1或2所述的基于特征维度的机器学习模型优化方法,其特征在于,所述的根据训练集的特征维度个数和模型的F1值,筛选掉异常的F1值后,选择出剩余F1值最大的特征维度个数n,具体为:
将K折交叉验证训练模型所产生的k个模型F1值计算出其均值作为当前特征维度组合所生成模型的性能指数,绘制特征维度组合中的维度个数与机器学习模型的性能指数的分布情况;
分析绘制的散点分布图,考虑到机器学习模型的稳定性,需要去除掉图形中的离群点,然后统计每一种特征维度个数中TopN(N2)的机器学习模型性能指标值,绘制特征维度组合中的维度个数与机器学习模型的TopN(N2)平均性能指标值的变化趋势;
分析绘制的折线趋势图,考虑到机器学习模型的准确率,选择TopN(N2)平均性能指数偏高的特征个数。
4.根据权利要求3所述的基于特征维度的机器学习模型优化方法,其特征在于,所述的根据划分为至少2个以上不同的训练集和测试集中的所有训练集中的特征维度和所有模型的F1值进行统计多个训练集的特征维度,得到多个Top榜单,具体为:
在确定了特征个数n之后,下一步需要筛选出前n个特征维度作为机器学习模型的输入维度;
以机器学习模型的性能指标值作为从高到低的排序依据,统计出M档的特征维度组合中的特征维度占有率,M档中每档为前N%的排序结果(M1,N100且相邻档间间隔大于1%)。
5.根据权利要求1所述的基于特征维度的机器学习模型优化方法,其特征在于,所述的根据多个Top榜单的数据,结合权重公式,计算出每一种特征维度的重要性系数,具体为:
根据每个Top榜单中的特征维度占有率,代入到分配权重公式中计算出最终的特征维度重要性排行榜,选择出性能最优的特征维度组合;
上述的权重公式如下所示:
其中ω0是特征维度的最终性能指数,Ci是Top榜单中特征维度的占比,L是榜单的数量,每一个特征维度都会计算出其对应的ω0,通过比较ω0值的大小,选择出ω0值较大的组合,即性能较优的特征维度组合。
6.一种基于特征维度的机器学习模型优化方法,其特征在于,包括:
第一处理模块:用于获得至少2个以上特征维度与1个标签维度的数据;
第一获得模块:用于通过皮尔逊相关系数算法获得每个特征维度和标签维度数据的相关性系数;
第一选择模块:用于根据所获得每个特征维度和标签维度数据的相关性系数删除所有小于阈值的所有特征维度,得到筛选后剩余的特征维度;所述的筛选后剩余的特征维度为至少2个以上;
第一组合模块:用于根据筛选后剩余的特征维度展开随机排列组合,组合为不同的特征维度组合,每一种特征维度组合的数据与所对应的标签维度数据都构成一种新的数据集,即组合为不同的数据集;根据所形成新的数据集划分为至少2个以上不同的训练集和测试集;
第一训练模块:用于根据划分好的训练集和测试集,每一对训练集和测试集都通过K折交叉验证的方式训练机器学习模型,得到K个预测结果;
第一计算模块:用于根据不同的数据集统计出当前特征维度组合内的特征维度个数;根据K个预测结果计算出当前机器学习模型的查准率、查全率和F1值;
第二选择模块:用于根据训练集的特征维度个数和模型的F1值,筛选掉异常的F1值后,选择出剩余F1值最大的特征维度个数n;
第二计算模块:用于根据划分为至少2个以上不同的训练集和测试集中的所有训练集中的特征维度和所有模型的F1值进行统计多个训练集的特征维度,得到多个Top榜单;根据多个Top榜单的数据,结合权重公式,计算出每一种特征维度的重要性系数;
第三选择模块:用于根据重要性系数从大到小排序,最终确定前n个特征维度作为机器学习模型训练的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学嘉兴研究院,未经浙江大学嘉兴研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211725208.0/1.html,转载请声明来源钻瓜专利网。





