[发明专利]一种面向软件缺陷预测的新型过采样方法在审
申请号: | 202210990440.0 | 申请日: | 2022-08-18 |
公开(公告)号: | CN115543776A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 楼俊钢;牛辰煜;申情;陈林;沈张果;卢剑权 | 申请(专利权)人: | 湖州师范学院 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N5/00 |
代理公司: | 杭州中利知识产权代理事务所(普通合伙) 33301 | 代理人: | 韩洪 |
地址: | 313000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 软件 缺陷 预测 新型 采样 方法 | ||
本发明提出了一种面向软件缺陷预测的新型过采样方法,包括以下步骤:S1.聚类:采用迭代分区过滤器IPF对原始数据集进行粗过滤,然后使用K‑means聚类算法对粗过滤后的数据集进行聚类处理,并根据设定的阈值筛选出少数类样本稀疏分布的簇,用于合成新样本;S2.过采样:使用SMOTE合成少数过采样技术作为合成新的少数类样本的过采样算法,在由步骤S1筛选出的簇内进行过采样来生成新的少数类样本;S3.噪声过滤:采用迭代分区过滤器IPF作为处理噪声的过滤器,清除步骤S2所得数据集中残留的噪声样本。该新型过采样方法能够减少新的噪声样本的产生,缓解不同类间的重叠现象,使得样本数量以及分布更加平衡,决策边界更加清晰。
【技术领域】
本发明涉及软件缺陷预测的技术领域,特别是一种面向软件缺陷预测的新型过采样方法。
【背景技术】
软件缺陷预测问题面临的一大挑战是数据的类不平衡。对于需要进行二分类的数据集,不平衡意味着 其中一类数据的数量远远少于另一类。这种类不平衡现象容易导致缺陷预测中对少数类的“边缘化”,从而 导致分类结果偏向严重。重采样是目前解决类不平衡问题最常用的方法,其通过执行算法对原始数据进行 合成新的少数类样本或者删减多数类样本的操作,使得两类数据样本分布更加均衡,有利于预测模型进行 更精确地分类预测。重采样包括欠采样、过采样和混合采样。欠采样是指有策略地丢弃部分多数类数据样本,包括Tomeklinks、编辑最近邻(EditedNearest-Neighbor,ENN)、近邻清除(Near Miss,NM)等方法。过采 样则是指向少数类群体中添加更多的新的少数类样本,其包括有SMOTE(Synthetic Minority Over-sampling Technique)、Borderline-SMOTE、ADASYN(AdaptiveSynthetic Sampling)等方法。而混合采样是指克服单一 采样方法的局限性,结合多种采样方法以达到更好的采样效果。混合采样方法有SMOTE-ENN、 SMOTE-Tomeklinks等。
SMOTE作为最经典的过采样方法,可以在少数类样本间随机插值生成新的样本以扩大少数类群体。 但如果单独使用SMOTE算法,可能会得到适得其反的结果。因为SMOTE在生成新样本的过程中会忽略 数据样本的实际分布情况,容易导致某些新产生的少数类样本和原本的多数类样本产生更严重的重叠现象。 同时,这些新生成的噪声样本也会加大后续对数据样本进行分类预测的难度。如果可以通过一些技术使得 SMOTE在少数类较为集中的特定区域合成新样本,将会大大改善引入噪声少数类样本这一问题。
重采样方法对于噪声的过滤不依赖于分类器结果,其往往是基于原始数据样本间的距离关系来进行的, 这就导致了对实际预测中的将会产生的样本分类结果的忽略。若可以利用分类器的分类结果对数据噪声进 行过滤,就能较好地避免重采样方法在处理数据样本时存在的盲目性。
【发明内容】
本发明的目的就是解决现有技术中的问题,提出一种面向软件缺陷预测的新型过采样方法,能够减少 新的噪声样本的产生,缓解不同类间的重叠现象,使得样本数量以及分布更加平衡,决策边界更加清晰。
为实现上述目的,本发明提出了一种面向软件缺陷预测的新型过采样方法,包括以下步骤:
S1.聚类:采用迭代分区过滤器IPF对原始数据集进行粗过滤,然后使用K-means聚类算法对粗过滤后 的数据集进行聚类处理,并根据设定的阈值筛选出少数类样本稀疏分布的簇,用于合成新样本;
S2.过采样:使用SMOTE合成少数过采样技术作为合成新的少数类样本的过采样算法,在由步骤S1 筛选出的簇内进行过采样来生成新的少数类样本;
S3.噪声过滤:采用迭代分区过滤器IPF作为处理噪声的过滤器,清除步骤S2所得数据集中残留的噪 声样本。
作为优选,步骤S1中,使用K-means聚类算法处理的具体步骤如下:
S1.1使用K均值聚类形成多个簇;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州师范学院,未经湖州师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210990440.0/2.html,转载请声明来源钻瓜专利网。