[发明专利]用于选择机器学习样本的特征的方法及系统在审
申请号: | 201711382743.X | 申请日: | 2017-12-20 |
公开(公告)号: | CN108090570A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 陈雨强;杨强;戴文渊;罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 张云珠;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了一种用于选择机器学习样本的特征的方法及系统。所述方法包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性;(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。根据所述方法和系统,利用提升框架结构的复合机器学习模型,采用特定的重要性衡量方式来确定其中各个候选特征的重要性,从而可在运算资源有限的情况下较好地筛选出相对重要的样本特征。 | ||
搜索关键词: | 候选特征 子集 复合机器 机器学习 样本 原始测试数据 筛选 测试数据集 重要性衡量 目标特征 提升框架 系统提供 样本特征 运算资源 特征集 学习 | ||
【主权项】:
1.一种用于选择机器学习样本的特征的方法,包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711382743.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种通用量子计算机中央处理器的操纵方法
- 下一篇:一种设备维护检测系统