[发明专利]一种基于多模型选择的软件缺陷预测方法、设备及存储介质在审
申请号: | 202210137455.2 | 申请日: | 2022-02-15 |
公开(公告)号: | CN114546847A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 邵羽;詹士潇;曾磊;匡立中;张帅 | 申请(专利权)人: | 杭州趣链科技有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 选择 软件 缺陷 预测 方法 设备 存储 介质 | ||
本发明涉及一种基于多模型选择的软件缺陷预测方法、设备及存储介质。本发明首先使用增量学习的方式逐个训练得到随机森林模型M0。然后,使用ADWIN概念漂移检测机制检测出样本均值的动态性,利用数据收集机制得到数据块D1、D2。再次,使用SMOTE算法平衡D1和D2中的类别分布,分别得到数据块D1’和D2’。对于获取的数据块D1,D2,D1’,D2’,基于随机森林模型分别建立四个分类模型M1,M2,M3和M4,选出M0,M1,M2,M3和M4五个软件缺陷流数据分类模型中性能最佳的模型,作为最终的软件缺陷预测模型M。最后,基于随机森林的M分类模型对软件缺陷数据的类别进行预测,从而实现软件缺陷预测。
技术领域
本发明涉及一种基于多模型选择的软件缺陷预测方法、设备及存储介质。
背景技术
随着大数据、云计算、并行计算等技术的飞速发展,相应的应用场景也日趋丰富,例如交通运输、商业、医疗卫生等。同时,高新技术的发展也加快了各种软件的出现以及开发。在软件开发过程中,需要严格按照用户需求,否则就软件开发进程就容易出错,这种影响软件或者程序正常进行的问题被称为软件缺陷。软件缺陷会严重影响软件的开发,若不及时检测并纠正,软件缺陷会进一步地积累或者传递,从而影响软件的可靠性和稳定性。因此,对软件缺陷的预测是一件十分重要的任务,具有重大的研究与实用价值。
软件缺陷预测任务即及时有效地识别出可能存在缺陷的软件模块,以便进行缺陷纠正,保证软件开发的正确性。软件模块数据在软件开发的过程中实时产生,并且其数据分布会随着软件开发的条件等因素会不断变化。因此,可将软件模块数据看作流数据,其数据分布的动态性被称为概念漂移。软件模块数据又被称为软件模块流数据,从而可采用流数据分类的方法对软件缺陷进行预测。
相比于人工方法进行软件缺陷检测,基于流数据分类的方法更能够有效实时地保证软件的可靠性与稳定性。软件模块数据被分为有缺陷类与无缺陷类两大类,并且有缺陷的软件模型数量通常少于无缺陷的软件模块。若将软件缺陷预测看作是流数据的二元分类问题,则该分类问题面对的是类别不平衡的数据流环境。其中,有缺陷的软件模块数据属于小样本,而无缺陷的软件模块数据属于大样本。
软件模块流数据是实时产生的,其数据分布会随着时间而不断变化,这种现象被称为概念漂移。根据概念漂移发生速度,可将概念漂移分为突变型、渐变型以及增量型三种类型。概念漂移的处理机制分为两种类型:主动型与被动型。主动型即使用概念漂移检测,基于统计量的稳定性来识别软件模块数据分布的动态性。在检测到概念漂移后,及时调整或者重构当前的流数据分类模型以适应新的环境。被动型方法无需额外增加概念漂移检测机制,通过适应地条整流数据集成分类模型中基础分类器的权重,被动地适应不断变化的软件模块流数据环境。相比于被动型方法,主动漂移检测机制能够更加及时地用符合新数据分布的软件模块流数据来调整模型。
发明内容
本发明旨在提供一种基于多模型选择的软件缺陷预测方法、设备及存储介质;本发明可以快速、有效地提高模型识别出有缺陷的软件模块,从而可以保证软件的可靠性与稳定性。
本发明的一方面提供了一种基于多模型选择的软件缺陷预测方法,包括以下步骤:
步骤1)使用第一数据收集机制收集新到达的软件模块流数据,增量训练随机森林模型M0。同时,使用新数据更新混淆矩阵中的统计量以及样本均值的统计量。
步骤2)将当前时刻更新得到的样本均值用于概念漂移检测机制中,得到小样本平衡数据块D1和D2。
步骤3)基于SMOTE算法,对获取的数据块D1和D2中进行过采样,分别得到类别分布平衡的数据块D1’和D2’。
步骤4)在获得的数据块D1,D2,D1’和D2’上,分别建立随机森林分类模型M1,M2,M3和M4。
步骤5)计算训练得到的流数据分类模型M0,M1,M2,M3和M4对最新软件模块流数据的G-mean性能值,基于多模型选择得到软件缺陷预测模型M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州趣链科技有限公司,未经杭州趣链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210137455.2/2.html,转载请声明来源钻瓜专利网。