[发明专利]一种跨项目软件缺陷预测方法及装置在审
申请号: | 202110704103.6 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113360392A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 邢颖;林婉婷;钱晓萌 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06Q10/04;G06Q10/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 项目 软件 缺陷 预测 方法 装置 | ||
本发明提供一种跨项目软件缺陷预测方法及装置。跨项目软件缺陷预测方法包括:对源项目和目标项目的类标进行移除,对移除类标后的源项目和目标项目数据进行合并,得到合并后的新数据集;对合并后的新数据集进行聚类分析;根据聚类分析结果对项目数据的特征进行选择;使用选择后的特征对源项目和目标项目数据集进行过滤;对源项目数据集进行采样生成新的样本;将新的样本加入到过滤后的源项目数据集中;将过滤后的源项目数据集作为训练集输入到分类器中;分类器在源项目数据集上进行训练;将训练完成的分类器在过滤后的目标项目数据集进行分类预测;输出分类的结果。本发明提供的跨项目软件缺陷的预测方法,速度快,准确率高。
技术领域
本发明属于软件测试技术领域,尤其是涉及一种跨项目软件缺陷预测方法及装置。
背景技术
跨项目软件缺陷预测具有广泛的实用价值,但通常相较于项目内缺陷预测其性能会更弱,主要原因是源项目和目标项目中的特征存在差异,分布不一致,对于分类器。同时,跨项目的缺陷预测有软件缺陷预测的通病:在数据集中,有缺陷的模块数量远小于没有缺陷的模块数量,即类不平衡问题,而模型在进行预测时,往往会偏向数量更多的一方,从而降低了对有缺陷模块的判断精度。
现有的跨项目软件缺陷的预测方法,由于上述的影响因素,准确率,可靠性较低,难以满足对跨项目软件缺陷的预测结果的需求。
发明内容
本发明提供了一种跨项目软件缺陷的预测方法,用以克服现有技术中源项目和目标项目特征分布差异性和类不平衡数据对预测结果有较大负面影响的问题。
本发明提供了一种跨项目软件缺陷的预测方法,包括:
对源项目和目标项目的类标进行移除;
对移除类标后的源项目和目标项目数据进行合并,得到合并后的新数据集;
对合并后的新数据集进行聚类分析;
根据聚类分析结果对项目数据的特征进行选择;
使用选择后的特征对源项目和目标项目数据集进行过滤;
对源项目数据集进行采样生成新的样本;
将新的样本加入到过滤后的源项目数据集中;
将过滤后的源项目数据集作为训练集输入到分类器中;
分类器在源项目数据集上进行训练;
将训练完成的分类器在过滤后的目标项目数据集进行分类预测;
输出分类的结果。
本发明提供的跨项目软件缺陷的预测方法,通过聚类分析对特征进行选择,使得过滤后的源项目和目标项目数据集之间特征的分布情况相似,减少了特征分布差异对预测结果带来的影响;使用过采样和可以改变样本权重迭代训练的分类器从数据和算法层面缓解了类不平衡数据带来的影响,使得预测方法的整体效果得到提升。
附图说明
图1为本发明提供的跨项目软件缺陷的预测方法实施实例的流程示意图;
具体实施方式
图1为本发明提供的跨项目软件缺陷的预测方法实施实例的流程示意图。如图1所示,该跨项目软件缺陷的预测方法包括:
S200,对源项目和目标项目的类标进行移除。
在实际操作中,目标项目的类标是为空的,在本说明中,目标项目数据集的类标被认为是存在但未进行标注,故在第一步需要和源项目数据集同时进行类标的移除操作。
S201,对移除类标后的源项目和目标项目数据进行合并,得到合并后的新数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704103.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:列车逃生门解锁系统及方法
- 下一篇:废乳化液渣处置系统及方法