[发明专利]基于密度的不平衡数据混合采样算法在审

专利信息
申请号: 202110762213.8 申请日: 2021-07-06
公开(公告)号: CN113378987A 公开(公告)日: 2021-09-10
发明(设计)人: 姜诚;万静;纪耀立 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙江省哈*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 密度 不平衡 数据 混合 采样 算法
【说明书】:

发明公开了基于密度的不平衡数据混合采样算法,首先使用DBSCAN聚类算法对少数类和多数类进行聚类,识别并处理少数类和多数类离群点,然后依据样本的K近邻总距离,计算每个样本的边界密度,依据边界密度,确定少数类样本和多数类样本的边界区域和非边界区域,对少数类样本边界区域进行过采样,多数类样本非边界区域欠采样,最后得到平衡数据集,使用交叉验证划分数据,使用随机森林算法对样本分类测试,实验结果显示,本发明能够得到较好的分类结果,分类器性能得到提高。

技术领域

本发明属于模式识别技术领域,涉及一种针对不平衡数据集的混合采样方法和分类算法的训练测试。

背景技术

在数据挖掘中,得到的数据如癌症患者,网络攻击识别,信用卡欺诈等较多不平衡数据,由于少数类包含的独有的特殊价值,如何准确的发现识别,是机器学习中是一项艰巨的挑战,逐渐成为机器学习领域的研究热点问题。

目前,不平衡数据相继提出了很多算法,主要在数据层面和算法层面上进行研究改进。

数据层面主要可以分为欠采样和过采样两个主要方面,欠采样主要通过删减多数类数据样本,目前主要通过聚类和整合的方法,但欠采样最大的问题是当样本数目较少时,欠采样后训练样本更少,这样导致模型无法得到准确的结果。

过采样层面主要是通过增加少数类样本,这样得到平衡的数据集,但过采样后容易存在过拟合,需要综合考虑样本的分布情况,精细化的合成有效的样本。

因此,本发明结合过采样和欠采样的缺陷,提出了基于密度的不平衡数据混合采样算法。

发明内容

本发明的目的是提出基于密度的不平衡数据混合采样算法,得到更加合理分布的平衡样本,从而提高分类器的预测性能和准确性。

本发明目的能够通过以下技术方案实现;

基于密度的不平衡数据混合采样算法,该算法包括以下步骤:

设原数据中总样本数目为H,对少数类和多数类样本使用DBSCAN聚类算法;

识别并剔除少数类和多数类噪声样本,最后得到少数类样本数目为X,多数类样本数目为Y;

具体地,需要依据DBSCAN聚类算法的结果,选择聚类簇样本数目低于阈值a的离群样本簇,并对该簇进行剔除。

对于每个样本,依据样本的K近邻总距离,计算样本的局部密度,依据局部密度设置阈值,将少数类和多数类分为边界区域和非边界区域;

具体地,计算局部密度计算选择K近邻样本时,采用欧氏距离,并通过到每个K近邻样本的总距离作为样本的局部密度。

对于每个边界区域的少数类,依据样本的边界密度大小,归一化处理,确定样本的权重,每个少数类周围合成不同数目的样本;

具体地,对于每个少数类边界样本,选取最近集合S中的两个样本X、Y,在两个样本连线上随机选取一点xq,在与原边界样本的连线上,合成单个样本xd,并重复相应的采样次数,得到新生成的平衡数据集,其中rand(0,1)表示0到1之间的随机数,生成新样本xd计算公式为:

xd=mi+rand(0,1)*(xq-mi)

对于每个非边界区域的多数类样本,依据样本的边界密度大小,进行随机欠采样,得到与少数类过采样后相同数目的平衡数据样本;

平衡训练集运用随机森林分类器进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比;

具体地,选择7组数据集上实验,采用十折交叉检验法,并使用F-value和G-mean等作为评价指标进行对比。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110762213.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top