[发明专利]基于密度的不平衡数据混合采样算法在审
申请号: | 202110762213.8 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113378987A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 姜诚;万静;纪耀立 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 密度 不平衡 数据 混合 采样 算法 | ||
本发明公开了基于密度的不平衡数据混合采样算法,首先使用DBSCAN聚类算法对少数类和多数类进行聚类,识别并处理少数类和多数类离群点,然后依据样本的K近邻总距离,计算每个样本的边界密度,依据边界密度,确定少数类样本和多数类样本的边界区域和非边界区域,对少数类样本边界区域进行过采样,多数类样本非边界区域欠采样,最后得到平衡数据集,使用交叉验证划分数据,使用随机森林算法对样本分类测试,实验结果显示,本发明能够得到较好的分类结果,分类器性能得到提高。
技术领域
本发明属于模式识别技术领域,涉及一种针对不平衡数据集的混合采样方法和分类算法的训练测试。
背景技术
在数据挖掘中,得到的数据如癌症患者,网络攻击识别,信用卡欺诈等较多不平衡数据,由于少数类包含的独有的特殊价值,如何准确的发现识别,是机器学习中是一项艰巨的挑战,逐渐成为机器学习领域的研究热点问题。
目前,不平衡数据相继提出了很多算法,主要在数据层面和算法层面上进行研究改进。
数据层面主要可以分为欠采样和过采样两个主要方面,欠采样主要通过删减多数类数据样本,目前主要通过聚类和整合的方法,但欠采样最大的问题是当样本数目较少时,欠采样后训练样本更少,这样导致模型无法得到准确的结果。
过采样层面主要是通过增加少数类样本,这样得到平衡的数据集,但过采样后容易存在过拟合,需要综合考虑样本的分布情况,精细化的合成有效的样本。
因此,本发明结合过采样和欠采样的缺陷,提出了基于密度的不平衡数据混合采样算法。
发明内容
本发明的目的是提出基于密度的不平衡数据混合采样算法,得到更加合理分布的平衡样本,从而提高分类器的预测性能和准确性。
本发明目的能够通过以下技术方案实现;
基于密度的不平衡数据混合采样算法,该算法包括以下步骤:
设原数据中总样本数目为H,对少数类和多数类样本使用DBSCAN聚类算法;
识别并剔除少数类和多数类噪声样本,最后得到少数类样本数目为X,多数类样本数目为Y;
具体地,需要依据DBSCAN聚类算法的结果,选择聚类簇样本数目低于阈值a的离群样本簇,并对该簇进行剔除。
对于每个样本,依据样本的K近邻总距离,计算样本的局部密度,依据局部密度设置阈值,将少数类和多数类分为边界区域和非边界区域;
具体地,计算局部密度计算选择K近邻样本时,采用欧氏距离,并通过到每个K近邻样本的总距离作为样本的局部密度。
对于每个边界区域的少数类,依据样本的边界密度大小,归一化处理,确定样本的权重,每个少数类周围合成不同数目的样本;
具体地,对于每个少数类边界样本,选取最近集合S中的两个样本X、Y,在两个样本连线上随机选取一点xq,在与原边界样本的连线上,合成单个样本xd,并重复相应的采样次数,得到新生成的平衡数据集,其中rand(0,1)表示0到1之间的随机数,生成新样本xd计算公式为:
xd=mi+rand(0,1)*(xq-mi)
对于每个非边界区域的多数类样本,依据样本的边界密度大小,进行随机欠采样,得到与少数类过采样后相同数目的平衡数据样本;
平衡训练集运用随机森林分类器进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比;
具体地,选择7组数据集上实验,采用十折交叉检验法,并使用F-value和G-mean等作为评价指标进行对比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762213.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车辆危险行为检测方法、装置及系统
- 下一篇:一种切坯钢丝自动化换取设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置