[发明专利]一种基于特征映射与属性补偿技术的软件缺陷预测模型在审
申请号: | 202110851716.2 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113626316A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 陈锦富;王小丽;蔡赛华;陈海波;张翅;徐家平;黄创飞 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 映射 属性 补偿 技术 软件 缺陷 预测 模型 | ||
本发明提供了一种基于特征映射和属性值转换的软件缺陷预测模型。包括:步骤1,利用交叉验证合理划分数据集,对测试所用到的样本集进行采样与归一化预处理,以得到更加平衡的缺陷数据集;步骤2,应用度量补偿方法解决源项目与目标项目间数据分布差异问题,使目标项目的数据分布与源项目的数据分布更加契合;步骤3,利用迁移学习技术将源数据与目标数据的数据距离映射到特征空间并加以最小化;步骤4,根据步骤3得到的训练样本集与测试样本集,利用决策树分类模型对数据进行缺陷分类。
技术领域
本发明属于软件安全领域,涉及一种基于特征映射与度量补偿方法的软件项目缺陷预测模型。
背景技术
随着互联网技术的蓬勃发展,软件复杂度的日益增加,软件安全及软件可靠性在软件工程中日益重要,为保证软件质量的高可靠性,缺陷预测方法成为缺陷预测领域的研究热点,好的软件缺陷预测方法能很大程度提高软件的测试效率,因此,构建高性能的缺陷预测模型在保证软件质量方面极具重要意义。
软件缺陷预测是基于软件开发过程中积累的历史数据构建预测模型的,然而当没有历史数据或历史缺陷数据不足以构建模型时,基于目标数据的传统软件缺陷预测方法便无法满足实践需求。而实际应用中要进行预测的项目通常是新开发的项目,这就出现了上述历史数据不足的问题,这便出现了跨项目缺陷预测的概念,即利用其它相关项目的数据用作训练来为目标数据构建缺陷预测模型,随之而来的是源项目与目标项目的数据差异难题。不同的项目由于其不同的上下文环境导致软件缺陷数据的特征空间和分布不同,即源与目标项目数据集的度量元取值分布差异导致难以满足独立同分布的假设。使用传统的机器学习技术来构建缺陷预测模型无法得到更好的预测效果。
当前的跨项目缺陷预测方法大致分为基于属性转换和基于数据选择两类,属性特征变换使得源项目和目标项目在保留各自缺陷特征的前提下服从相同分布。为了解决不同项目间数据分布差异较大导致缺陷预测模型性能较低的问题,我们使用度量补偿的方法改变源数据集中的数据分布以适应目标数据集,将源项目与目标项目数据之间的差异利用实例训练时权重的思想去缩小源项目与目标项目数据之间的分布差异。再使用迁移学习技术利用源项目已有知识来解决目标领域仅有少数已标记实例甚至没有的问题,利用半监督迁移成分分析(SSTCA)方法得到源项目与目标项目在映射空间的最小化数据距离,同时最大程度保留了它们各自的内部属性,结合这两种方法的效果加强源与目标数据域数据分布的相似性。即使用基于特征映射与属性值转换的思想使跨项目缺陷预测中源与目标数据集中的数据分布尽量相似。
发明内容
基于现有跨项目缺陷预测问题的方法大致分为两类,一类是基于属性转换,一类是基于数据选择,其中基于属性转换的方法大多是利用权重的思想让源与目标数据更加契合,得到相似的数据分布情况。本发明结合了一种能充分利用源域数据的类标签信息进行转移成分学习的迁移学习方法SSTCA与属性补偿技术,使目标项目的数据分布与源项目的数据分布相似。SSTCA充分利用源项目中数据的类标签信息,将源项目的转移数据作为训练数据,利用采样方法进一步进行类别不平衡学习。同时利用多源训练集对同一目标数据集预测结果的均值作为模型最终的预测结果。将本方法的实验结果与现有的度量补偿方法进行比较,验证了本发明方法的高效性。
本发明提出了一种结合迁移学习技术与属性补偿技术的跨项目缺陷预测模型,包括:
步骤1,使用交叉验证合理划分数据集,对测试所用到的样本集进行采样与归一化预处理,以得到更加平衡的缺陷数据集;
步骤2,应用属性补偿方法解决跨项目间数据分布差异问题,使目标项目的数据分布与源项目的数据分布更加契合;
步骤3,在获取到经过度量补偿技术处理过的样本集后,再利用迁移学习技术最小化源与目标数据的数据距离以得到更加相似的数据分布;
步骤4,根据步骤3得到的训练样本集与测试样本集,利用决策树分类模型对数据进行缺陷分类,根据预测结果进而评估模型的预测性能。
第一方面,上述步骤1的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110851716.2/2.html,转载请声明来源钻瓜专利网。