[发明专利]一种基于三角质心权重的过采样方法在审
申请号: | 202110976931.5 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113792765A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 周红芳;陈佳琳 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王奇 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三角 质心 权重 采样 方法 | ||
本发明公开一种基于三角质心权重的过采样方法,具体步骤为:步骤1,将待处理样本量化为数值后计算特征权重;步骤2,对量化后的样本进行danger类样本提取;步骤3,搜索danger类样本的近邻样本;步骤4,对于每个danger样本的近邻样本中,随机找出两个近邻样本,计算三个点的三角质心坐标,得到质心样本;步骤5,质心样本中对质心坐标的每一个特征分别乘以特征权重,得到偏移质心,组成质心偏移样本;步骤6:根据遗传算法确定质心偏移样本的权重系数,权重系数乘以偏移质心,最终得到新样本。本发明解决了传统方法中采用两点间直线的方法,新合成样本空间被局限在两个点之间,对样本的信息提取较少问题。
技术领域
本发明属于数据挖掘与机器学习数据处理技术领域,涉及一种基于三角质心权重的过采样方法。
背景技术
随着大数据时代的到来,纷繁多样的数据信息涌入我们的生活,不平衡数据是其中一个典型代表。不平衡数据是指数据样本在不同数据类别之间的不平衡分布,其分类问题已经在人工智能,数据挖掘领域普遍存在。在这些受到不平衡问题影响的二分类或多分类问题中,我们把样本较多的类别称之为多数类或正类,把样本较少的类别称之为少数类或负类。在分类时,传统的分类算法主要面向数据分布较为平衡的数据样本,但在处理不平衡数据时,分类器会变得低效,难以识别集合中的少数类样本。因此,对不平衡样本进行处理,分类器的分类性能就变得至关重要了。
由于不平衡数据广泛存在于各类领域,因此该发明可以应用到各类领域当中的不平衡数据中去。在现实世界当中,针对疾病诊治,信用评估等方面的问题,往往需要对其准确分类,这时,样本的不平衡性往往使得对该类数据分类非常困难。例如在新冠肺炎病人的判断中,会涉及到海量的人员数据,每个人员的性别,年龄,体重,血压,肺部信息等一系列特征构成了该人员样本,而由若干人员则构成这个数据集,他们的类别就是患病者与非患病者。显而易见的是,可能在1000人当中,只有10人患病,即在这之中患病者总是占有很少一部分,即少数类;非患病者即为多数类,如果误把患病者分类到非患病者中去,其结果将会是灾难性的。同样的,在银行信用评估中,评估人员的年龄,收入,购买力等同样可以作为一个人员样本的特征,继而判断其信用度如何,是否向其发放贷款,在这之中,信用度较低的人总是占少数,由此产生的数据不平衡问题就需要被很好的解决。
在对不平衡样本进行处理的方法中,采样技术得到了广泛的应用。如欠采样,过采样,混合采样等。其中,过采样方法通过增加样本中的少数类样本来使得两类样本数量达到平衡,从而改善分类效能。但是,传统的随机过采样思想是对于少数类样本进行随机的重复抽样,但这只是对于原有样本的简单复刻,对于少数类样本的信息提取少之又少,模型学习到的信息过于,不够泛化,特别容易产生过拟合问题。因此,在此基础上研究人员逐步提出了SMOTE,Borderline-SMOTE等经典过采样方法。
SMOTE是基于随机过采样算法的一种改进方案,如图2,它基于少数类样本计算出它的k近邻,根据样本不平衡比例设置一个采样比例来确定采样倍率,对于每一个少数类样本选择合适的近邻,根据下面的公式合成一个新的样本,处于直线上的样本将被认定为是具有少数类特征的新样本继而添加在训练集中。
xnew=x+rand(0,1)*(x′-x) (1)
在式(1)中,在这之中,xnew表示最终合成的一个样本,x表示输入的一个少数类样本,x’表示被选中的x的一个近邻样本,rand(0,1)是0~1之间的一个随机数。经过该式计算,就可以根据采样率合成新样本了。
但是SMOTE算法仍然存在着一些问题:一方面,我们需要选择合适的近邻数,也就是k值,然后按照随机的方式选择近邻,这就使得这一参数无法得到有效的确定,往往需要反复试验论证;另一方面,数据在集合中的分布是固定的,容易产生数据边缘化的问题,即一部分少数类样本会处于负类样本的边缘,这使得合成样本逐渐向边缘靠拢,模糊了正负类样本的边界,反而加大了分类难度。为了解决这一问题,人们又提出了Borderline-SMOTE算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110976931.5/2.html,转载请声明来源钻瓜专利网。