[发明专利]用于选择机器学习样本的特征的方法及系统在审
申请号: | 201711382743.X | 申请日: | 2017-12-20 |
公开(公告)号: | CN108090570A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 陈雨强;杨强;戴文渊;罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 张云珠;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选特征 子集 复合机器 机器学习 样本 原始测试数据 筛选 测试数据集 重要性衡量 目标特征 提升框架 系统提供 样本特征 运算资源 特征集 学习 | ||
1.一种用于选择机器学习样本的特征的方法,包括:
(A)将候选特征集划分为多个候选特征子集;
(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;
(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及
(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
2.如权利要求1所述的方法,还包括:
(E)从候选特征集去除目标特征以更新候选特征集;
并且,在步骤(E)之后,基于更新的候选特征集来再次从步骤(A)开始执行所述方法,直到完成所有目标特征的选择。
3.如权利要求2所述的方法,其中,在步骤(E)中,在从候选特征集去除目标特征的同时还加入新的候选特征以更新候选特征集。
4.如权利要求1所述的方法,其中,步骤(E)还包括:将目标特征作为新的基本特征加入基本特征子集以更新基本特征子集,
并且,基于更新的基本特征子集来再次从步骤(A)开始执行所述方法。
5.如权利要求4所述的方法,其中,基本子模型包括对应于基本特征子集整体的单个模型;或者,基本子模型包括分别对应于初始的基本特征子集和每次更新基本特征子集时所加入的目标特征的多个模型。
6.如权利要求3所述的方法,其中,所述新的候选特征为通过在候选特征和/或基本特征之间进行特征组合而新生成的组合特征。
7.如权利要求1所述的方法,其中,在步骤(B)中,通过并行地训练多个复合机器学习模型来获取与每一个候选特征子集相应的复合机器学习模型。
8.一种用于选择机器学习样本的特征的系统,包括:
特征子集划分装置,用于将候选特征集划分为多个候选特征子集;
复合机器学习模型获取装置,用于针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;
候选特征重要性确定装置,用于根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及
目标特征选择装置,用于针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
9.一种用于选择机器学习样本的特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如权利要求1至7任一所述的用于选择机器学习样本的特征的方法的计算机程序。
10.一种用于选择机器学习样本的特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求1至7任一所述的用于选择机器学习样本的特征的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711382743.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通用量子计算机中央处理器的操纵方法
- 下一篇:一种设备维护检测系统