[发明专利]一种基于分级采样的不平衡数据再平衡处理方法在审
申请号: | 202110391951.6 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113095403A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 林绍福;常晴晴;刘希亮 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分级 采样 不平衡 数据 平衡 处理 方法 | ||
本发明公开了一种基于分级采样的不平衡数据再平衡处理方法,包括:将多数类样本点根据分类难度分成不同的分类难度等级,并设置等级权重,根据等级权重进行下采样,将下采样得到的样本作为多数类样本的代表与少数类样本合并成新的数据集。通过在多个公开的不平衡数据集上的实验结果表明,与其他不平衡数据集处理方法相比,该方法更具优越性,显著提升了模型识别的F1值。
技术领域
本发明涉及机器学习与数据挖掘、人工智能领域,是一种基于分级采样的不平衡数据再平衡处理方法,可应用于机器学习与数据挖掘领域。
背景技术
不平衡数据是指不同类别数据的样本数量不等且差别比较大。在日常的机器学习研究中经常会遇到不平衡数据集比如诈骗电话识别、欺诈点击、信用还款预测、心脏病预测等。不平衡数据再平衡处理是机器学习和模型构建过程中至关重要的一步,在本发明中,主要关注不平衡条件下模型对样本数据的二分类问题。
相关技术中,当前大多数研究者采用各种采样方法对特定领域数据进行采样再平衡处理,从一定程度上缓解了不平衡数据中正负样本的数量比,但是这些方法没有考虑分类边界附近样本分布特点。因此,本发明结合分类边界附近样本特点,提出一种基于分级采样的不平衡数据再平衡处理方法。
发明内容
本发明的目的在于提供了一种基于分级采样的不平衡数据再平衡处理方法,旨在更好地区分在分类边界容易被误分的二分类样本数据正负样本不平衡的问题。将多数类样本点根据分类难度分成不同的分类难度等级,并设置等级权重,根据等级权重进行下采样,将下采样得到的样本作为多数类样本的代表与少数类样本合并成新的数据集。通过在多个公开的不平衡数据集上的实验结果表明,与其他不平衡数据集处理方法相比,该方法更具优越性,显著提升了模型识别的F1值。
一种基于分级采样的不平衡数据再平衡处理方法,其特征在于,包括如下步骤,
步骤1:把多数类样本点根据分类难度分成不同的分类难度等级;
步骤2:根据不同的分类难度等级为每个等级设置等级权重;
步骤3:根据等级权重设置样本激活函数;
步骤4:根据等级难度对每个等级进行下采样,离分类边界比较近的或者比较容易被错分类的样本会被选出来作为多数类样本的代表样本与少数类样本合并成新的数据集,得到新的平衡的数据集;
步骤5:结束。
1、根据样本数据在分类边界分布不平衡的特点,本发明提出使用轻量级梯度提升树(LGBM)作为分类器,并用F1值判断模型性能。
其中真阳性(TP)表示少数类样本点被预测为少数类样本点的个数,假阳性是多数类样本点被预测为少数类样本点的数量,假阴性是少数类样本点被预测为多数类样本点的数量,真阴性是多数类样本点被预测为多数类样本点的数量。
准确率(Precision)是指预测为少数类样本中,原本就是少数类样本的比例,用数学公式表示如下式(1)所示。
召回率(Recall)是指原本为少数类样本中,预测为少数类样本的比例,用数学公式表示如下式(2)所示。
F1是调和准确率和召回率的一个新的评价指标F-measure简称F1,具体数学公式如下式(3)所示。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110391951.6/2.html,转载请声明来源钻瓜专利网。