[发明专利]一种跨项目软件缺陷预测方法及装置在审

申请号：	202110704103.6	申请日：	2021-06-24
公开（公告）号：	CN113360392A	公开（公告）日：	2021-09-07
发明（设计）人：	邢颖;林婉婷;钱晓萌	申请（专利权）人：	北京邮电大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06K9/62;G06Q10/04;G06Q10/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种项目软件缺陷预测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种跨项目软件缺陷预测方法及装置。跨项目软件缺陷预测方法包括：对源项目和目标项目的类标进行移除，对移除类标后的源项目和目标项目数据进行合并，得到合并后的新数据集；对合并后的新数据集进行聚类分析；根据聚类分析结果对项目数据的特征进行选择；使用选择后的特征对源项目和目标项目数据集进行过滤；对源项目数据集进行采样生成新的样本；将新的样本加入到过滤后的源项目数据集中；将过滤后的源项目数据集作为训练集输入到分类器中；分类器在源项目数据集上进行训练；将训练完成的分类器在过滤后的目标项目数据集进行分类预测；输出分类的结果。本发明提供的跨项目软件缺陷的预测方法，速度快，准确率高。

技术领域

本发明属于软件测试技术领域，尤其是涉及一种跨项目软件缺陷预测方法及装置。

背景技术

跨项目软件缺陷预测具有广泛的实用价值，但通常相较于项目内缺陷预测其性能会更弱，主要原因是源项目和目标项目中的特征存在差异，分布不一致，对于分类器。同时，跨项目的缺陷预测有软件缺陷预测的通病：在数据集中，有缺陷的模块数量远小于没有缺陷的模块数量，即类不平衡问题，而模型在进行预测时，往往会偏向数量更多的一方，从而降低了对有缺陷模块的判断精度。

现有的跨项目软件缺陷的预测方法，由于上述的影响因素，准确率，可靠性较低，难以满足对跨项目软件缺陷的预测结果的需求。

发明内容

本发明提供了一种跨项目软件缺陷的预测方法，用以克服现有技术中源项目和目标项目特征分布差异性和类不平衡数据对预测结果有较大负面影响的问题。

本发明提供了一种跨项目软件缺陷的预测方法，包括：

对源项目和目标项目的类标进行移除；

对移除类标后的源项目和目标项目数据进行合并，得到合并后的新数据集；

对合并后的新数据集进行聚类分析；

根据聚类分析结果对项目数据的特征进行选择；

使用选择后的特征对源项目和目标项目数据集进行过滤；

对源项目数据集进行采样生成新的样本；

将新的样本加入到过滤后的源项目数据集中；

将过滤后的源项目数据集作为训练集输入到分类器中；