[发明专利]一种基于谱聚类的过采样方法在审

申请号：	202011462702.3	申请日：	2020-12-14
公开（公告）号：	CN112418352A	公开（公告）日：	2021-02-26
发明（设计）人：	张爽;李媛洁;纪耀立	申请（专利权）人：	哈尔滨理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	150080 黑龙江省哈***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于谱聚类采样方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于基于谱聚类的过采样方法，本发明首先对数据集进行谱聚类，根据簇内多数类样本与少数类样本的个数划分为边界簇和安全簇，对于边界簇，根据簇内不平衡比进行簇的概率选择；对于安全簇根据簇内少数类样本数据个数进行簇的概率选择；在选择簇的基础上，选择簇中心点并随机选取簇内少数类样点，在两个样本点之间随机生成，直到个数满足条件，本发明能够提高过采样生成数据的可靠性，从而提高不平衡数据中少数类样本的分类精度。

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于谱聚类的过采样方法。

背景技术

在数据挖掘领域中，不平衡数据是分类问题中一个典型问题，传统的机器学习模型在处理不平衡数据时往往将预测结果更倾向于多数类，对于少数类的分类准确率偏低。然而，从数据挖掘的角度分析，在一些分类问题中少数类数据往往存在更重要的信息。

随着不平衡数据集处理的研究的不断发展，目前，研究方向主要集中在算法层面和数据层面。对于数据层面来说，主要分为过采样、欠采样和混合采样。相对于其他采样方法，过采样的方法能够避免多数类重要数据样本的丢失。过采样逐渐发展出很多方法，比如SMOTE、Borderline-SMOTE、ADASYN等等，但是这些方法只是对样本进行无区别的采样，不能同时考虑同类数据和不同数据之间的关系，这些都会导致边界无法准确区分，导致在预测时准确率有所下降。

发明内容

本发明的目的在于提供一种对不平衡数据进行聚类，划分为不同类别簇进行过采样并平衡数据集，从而达到提高预测少数类样本准确性的不平衡数据过采样方法。

实现本发明目的的技术解决方案为：一种基于谱聚类的过采样方法，其特征在于，包括以下步骤。

步骤1：对不平衡数据集作为输入，区分出少类样本和多类样本，计算原始数据的不平衡比。

步骤2：将不平衡数据集利用谱聚类，划分为多个簇。

步骤3：根据簇内有无多数类或少数类筛选出边界簇和安全簇，并且根据各类簇所占比例确定簇的选择权重。

步骤4：对于边界簇，根据簇内的不平衡比分别进行过采样。

步骤5：对于安全簇，根据密度分别进行过采样。

步骤6：重复步骤3-5直至生成数据个数等于所需数据，并将生成的数据集添加到原始数据集中，构造成新的数据集。

根据所述的一种基于谱聚类的过采样方法，其特征在于，所述步骤2中，将不平衡数据集利用谱聚类，划分为多个簇，具体步骤如下。

步骤2.1 利用KNN算法遍历所有的样本点，取每个样本最近的K个样本点作为近邻，计算样本点与其所对应的近邻样本之间之间的高斯距离，并通过两个样本点之间高斯距离构造相似矩阵A。

步骤2.2 通过相似矩阵A构造度矩阵D。