[发明专利]确定机器学习样本的特征重要性的方法及系统在审
申请号: | 202110542599.1 | 申请日: | 2016-11-01 |
公开(公告)号: | CN113435602A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 马铁良 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 机器 学习 样本 特征 重要性 方法 系统 | ||
提供了一种确定机器学习样本的特征重要性的方法及系统,所述方法包括:(A)获取历史数据记录,其中,所述历史数据记录包括关于机器学习问题的标记和至少一个属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中,特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。通过所述方法和系统,可有效确定机器学习样本中各个特征的重要性。
本申请是申请日为2016年11月01日、申请号为201610935697.0、题为 “确定机器学习样本的特征重要性的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种针对机器学 习样本的特征重要性确定方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数 据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个 示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的 各个事项,这些事项可称为“属性”。
实践中,机器学习模型的预测效果与模型的选择、可用的数据和特征的 提取等有关。如何从原始数据记录的各个属性提取出机器学习样本的特征, 将会对机器学习模型的效果带来很大的影响。相应地,不论从模型训练还是 模型理解的角度来看,都很需要获知机器学习样本的各个特征的重要程度。 例如,可根据基于XGBoost训练出的树模型,计算每个特征的期望分裂增益, 然后计算特征重要性。上述方式虽然能考虑特征之间的相互作用,但训练代 价高,且不同参数对特征重要性的影响较大。
实际上,特征的重要性难以直观确定,往往需要技术人员不仅掌握机器 学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着 不同行业的不同实践经验,导致很难达到满意的效果。
发明内容
本发明的示例性实施例旨在克服现有技术中难以有效地确定机器学习样 本的各个特征的重要性的缺陷。
根据本发明的示例性实施例,提供一种确定机器学习样本的各个特征的 重要性的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包 括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个 属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中, 特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学 习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效 果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重 要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连 续特征执行离散化运算来训练特征池模型。
可选地,在所述方法中,在步骤(C)中,根据特征池模型在原始测试数 据集和变换测试数据集上的效果之间的差异来确定所述特征池模型所基于的 相应特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的 其重要性待确定的目标特征的取值替换为以下项之一而获得的数据集:零值、 随机数值、通过将目标特征的原始取值扰乱顺序后得到的值。
可选地,在所述方法中,所述至少一个特征池模型包括一个全部特征模 型,其中,全部特征模型是指基于所述各个特征之中的全部特征来提供关于 机器学习问题的预测结果的机器学习模型。
可选地,在所述方法中,所述至少一个特征池模型包括多个基于不同特 征组来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C) 中,根据所述至少一个特征池模型在原始测试数据集上的效果之间的差异来 确定所述各个特征的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110542599.1/2.html,转载请声明来源钻瓜专利网。