[发明专利]一种面向软件缺陷预测的新型过采样方法在审
申请号: | 202210990440.0 | 申请日: | 2022-08-18 |
公开(公告)号: | CN115543776A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 楼俊钢;牛辰煜;申情;陈林;沈张果;卢剑权 | 申请(专利权)人: | 湖州师范学院 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N5/00 |
代理公司: | 杭州中利知识产权代理事务所(普通合伙) 33301 | 代理人: | 韩洪 |
地址: | 313000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 软件 缺陷 预测 新型 采样 方法 | ||
1.一种面向软件缺陷预测的新型过采样方法,其特征在于:包括以下步骤:
S1.聚类:采用迭代分区过滤器IPF对原始数据集进行粗过滤,然后使用K-means聚类算法对粗过滤后的数据集进行聚类处理,并根据设定的阈值筛选出少数类样本稀疏分布的簇,用于合成新样本;
S2.过采样:使用SMOTE合成少数过采样技术作为合成新的少数类样本的过采样算法,在由步骤S1筛选出的簇内进行过采样来生成新的少数类样本;
S3.噪声过滤:采用迭代分区过滤器IPF作为处理噪声的过滤器,清除步骤S2所得数据集中残留的噪声样本。
2.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1中,使用K-means聚类算法处理的具体步骤如下:
S1.1使用K均值聚类形成多个簇;
S1.2对于每个簇,使用如下公式(1)计算簇内不平衡率IR:
其中,majoritycounts(c)是多数类样本的数量,minoritycounts(c)是少数类样本的数量;将每个聚类的不平衡率与设定阈值irt进行比较;若IR小于irt,则将该簇视为过滤器簇,否则不视为过滤器簇;
S1.3对于每个过滤后的簇,根据少数类的密度确定其采样权重。
3.如权利要求2所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1.3中,采样权重的确定采用以下步骤实现:
a.对于每个过滤后的聚类f,计算所有少数类样本间的距离矩阵;
b.通过将距离矩阵中的所有非对角线元素相加,然后除以非对角线元素的数量,计算每个簇内的平均距离;
c.使用如下公式(2)计算,即可求得密度因子density(f):
其中majoritycounts(f)是簇f中多数类样本的数量,averageminoritydistance(f)为簇f的簇间平均距离,d代表幂次;
d.使用如下公式(3)计算稀疏因子sparsity(f):
其中density(f)为簇f的密度因子;
e.每个簇的采样权重定义为该簇的稀疏因子除以所有簇的稀疏因子之和。
4.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S2中,对于每个要生成的新的少数类样本,SMOTE在簇中选择一个随机少数类样本,选择其随机相邻少数类样本,并通过在两者中进行随机插值来确定一个新样本。
5.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S2的具体步骤如下:
S2.1依据欧几里得距离,为每一个少数类样本xi确定其K个少数类近邻;
S2.2随机选择其中M个近邻,执行如下公式(4)进行线性插值合成新的样本;
xnew=xi+rand(0,1)×(xm-xi) (4)
其中,rand(0,1)为介于0和1之间的随机数,xm表示第m个近邻(m=1,2,…,M);
S2.3将生成的新样本添加到原始数据集中以实现样本的均衡分布。
6.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1、步骤S3中,IPF通过多次迭代来清理数据样本,其迭代步骤为:
S3.1将当前训练集分割为n个大小相等的子集;
S3.2n个子集分别投入n个决策树进行分类;决策树对子集中的每个数据样本进行分类,若最终得到错误的分类结果,表示数据样本可能是噪声;
S3.3如果一个数据样本被m个决策树都错误分类,则IPF会将其视作噪声样本从而过滤删除掉该数据;
S3.4IPF迭代i次,迭代停止条件为:当每次迭代中识别出的噪声样本的数量小于设定的原始训练数据集大小的百分数时,迭代过程停止。
7.如权利要求6所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S3.3中,m的取值为n或n/2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州师范学院,未经湖州师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210990440.0/1.html,转载请声明来源钻瓜专利网。