[发明专利]用于机器学习性能测试和改进的数据分片在审
| 申请号: | 202010434033.2 | 申请日: | 2020-05-21 |
| 公开(公告)号: | CN112070231A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | R·博瑞尔;E·法尔彻;O·拉兹;A·兹罗尼克 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06Q40/02 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 郑宗玉 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 机器 学习 性能 测试 改进 数据 分片 | ||
用于机器学习性能测试和改进的数据分片。用于识别和改进表现不佳的机器学习ML的方法和计算机程序产品。该方法包括基于表示利用ML模型的系统的要求的功能模型对ML模型的数据进行分片。功能模型包括属性集合和相应的值域。每个数据分片与功能模型的一个或多个属性的不同估值相关联。基于属性的估值,将ML模型的每个数据实例映射到一个或多个数据分片。对于每个数据分片,基于ML模型在映射到数据分片的每个数据实例上的应用来计算ML模型的性能测度。可基于数据分片的性能测度来执行ML模型是否符合目标性能要求的确定。
技术领域
本公开总体上涉及机器学习测试,并且尤其涉及表现不佳的机器学习的识别和改进。
背景技术
基于机器学习的解决方案变得越来越流行和普及。许多计算机系统利用机器学习模型来有效地执行特定任务,而无需使用显式指令,而是依靠模式和推理。机器学习算法被广泛用于各种应用中,例如电子邮件过滤和计算机视觉,在这些应用中,开发用于执行任务的特定指令的算法是不可行的。
可以利用不同的性能和准确度度量(metric)来评估机器学习模型的性能,例如F1分数、准确度等。准确度可以是作为被正确分类的总项目的百分比的测度(measure)。F1分数是精确度(例如,在被识别为正数的总项目当中被正确识别为正数的项目数)和召回率(例如,在总真正数(true positives)当中被正确识别为正数的项目数)的调和平均值。
发明内容
所公开的主题的一个示例性实施例是一种方法,包括:利用机器学习预测模型获得表示系统的系统要求的功能模型。所述机器学习预测模型可被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合,每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签。所述原始数据包括元数据。所述方法还包括对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值。所述确定值可包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片,计算所述机器学习预测模型在所述数据分片上的性能测度。所述计算可基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同的性能测度。所述方法还包括基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。
所公开的主题的另一个示例性实施例是一种方法,包括:获得表示系统的系统要求的功能模型。所述系统可能够利用多个机器学习预测模型,每个机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合,每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签,其中所述原始数据包括元数据。所述方法还包括对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值。所述确定值包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片,计算所述多个机器学习预测模型中的每个机器学习预测模型在所述数据分片上的性能测度。所述计算可基于每个机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用来执行,从而对于每个数据分片计算不同性能测度集合,每个性能测度测量不同机器学习预测模型在所述数据分片上的性能。所述方法还包括对于每个数据分片,基于所述每个数据分片的所述不同性能测度集合从所述多个机器学习中确定所选择的机器学习预测模型。响应于获得标签要由所述系统所估计的数据实例,所述方法包括确定所述数据实例所映射到的数据分片;以及利用对于所述数据分片确定的所选择的机器学习预测模型来提供用于所述数据实例的所估计的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434033.2/2.html,转载请声明来源钻瓜专利网。





