[发明专利]机器学习样本权重调整方法和装置、存储介质在审
申请号: | 202010922347.7 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112052900A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 聂健;黄婉棉;郑邦祺;彭南博 | 申请(专利权)人: | 京东数字科技控股股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王云飞;王莉莉 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 样本 权重 调整 方法 装置 存储 介质 | ||
本公开涉及一种机器学习样本权重调整方法和装置、存储介质。该机器学习样本权重调整方法包括:对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差;根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。本公开可以通过启发式迭代思路实现对学习样本权重的动态、精细调节。
技术领域
本公开涉及及其学习领域,特别涉及一种机器学习样本权重调整方法和装置、存储介质。
背景技术
随着计算机算力、数据量、数据维度的不断增长,机器学习已深入现代生活的方方面面,并且成为各类互联网服务的重要支撑:在搜索、推荐、导航、反欺诈等与日常场景中,正是由于各类机器学习算法的不断发展和迭代,才能给用户越来越好的使用体验。按照训练数据是否有标记,可以将机器学习方法简单分为有监督学习(Supervised MachineLearning)和无监督学习(Unsupervised Machine Learning),目前主流的机器学习手段是有监督学习。对于有监督学习方法而言,样本标签(Label)极为关键,如通过历史观测并标注的“是垃圾邮件”和“非垃圾邮件”标签,训练机器学习模型将能够学习两类标签各自特征,从而实现对未知邮件样本进行分类;由于样本标签往往需要人工标注或校验、成本较高,所以现实生活中样本标签往往存在不全或不准的情况:例如“垃圾邮件”样本数往往远少于“非垃圾邮件”样本数,且可能由于标注人员的评价标准不一,同一封邮件可能被打上不同标签,这些因素都将影响机器学习模型的学习性能效果。
为了解决样本不均衡问题,相关技术主流解决方案是调节样本比例或权重(Sample_weigth),如通过上采样(Over-sampling)、下采样(Under-sampling)直接调整各标签样本数量,或通过增大少数类样本的权重使得模型加大对少数类样本的学习偏重。为了解决错误标签造成的干扰,相关技术主要通过人工排除或通过在模型损失函数降低异常难拟合样本(Hard Negative,即模型预测值Prediction与样本标签Label间差距过大的样本)权重,减少此类样本对模型的干扰。
发明内容
发明人通过研究发现:针对样本不均衡问题,相关技术从数据层面和算法层面进行解决:第一、通过上采样或下采样从数据量层面调节样本比例,其中,上采样通常指通过合成或复制技术生成更多的少数类样本,通过合成技术生成更多的少数类样本,下采样通常指通过抽样技术减少多数类样本,以达到平衡各类样本数的目的;第二、通过增大少数类样本权重(或减小多数样本学习权重)使得模型在梯度求解或损失计算时偏向少样本。但是相关技术的第一种方式改变了样本真实分布情况,且减少了训练样本数,使得模型在线上预测时可能存在一定误差;而相关技术的第二种方式,往往难以确定权重或对一批样本使用固定权重,无法在训练过程中实现准确、动态调节。
鉴于以上技术问题中的至少一项,本公开提供了一种机器学习样本权重调整方法和装置、存储介质,可以基于启发式迭代思路实现对学习样本权重的动态、精细调节。
根据本公开的一个方面,提供一种机器学习样本权重调整方法,包括:
对于不同类型样本数量不均衡的场景,在机器学习模型的多轮迭代训练过程的每一轮模型训练后,确定每一个样本的样本预测值与样本标签值的误差;
根据样本预测值与样本标签值间的误差,对模型训练后的每一个样本的当前样本权重进行动态调整,并作为下轮模型训练的样本权重。
在本公开的一些实施例中,所述机器学习样本权重调整方法还包括:
初始化全局样本权重,作为将初始化的全局样本权重作为第一轮模型训练的样本权重。
在本公开的一些实施例中,初始化全局样本权重包括:
根据每一类型样本数量和样本总数确定每一类型样本的全局样本权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股股份有限公司,未经京东数字科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010922347.7/2.html,转载请声明来源钻瓜专利网。