[发明专利]适用于海量不均衡缺陷报告的软件缺陷严重程度预测方法在审

专利信息
申请号: 202110281981.1 申请日: 2021-03-16
公开(公告)号: CN112905478A 公开(公告)日: 2021-06-04
发明(设计)人: 陈翔;葛骅;陈晓红;贾焱鑫;林浩 申请(专利权)人: 南通大学
主分类号: G06F11/36 分类号: G06F11/36;G06F16/35;G06F40/284;G06F40/211
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 沈海霞
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 适用于 海量 均衡 缺陷 报告 软件 严重 程度 预测 方法
【说明书】:

发明公开了一种适用于海量不均衡缺陷报告的软件缺陷严重程度预测方法,包括以下步骤:1.构建缺陷报告数据集DBR;步骤2.构建缺陷报告样本集;步骤3.利用borderline‑smote算法实现建缺陷报告样本集中的样本均衡;步骤4.利用均衡后的缺陷报告样本集训练逻辑回归模型得到缺陷报告严重程度预测模型;步骤5.利用缺陷报告严重程度预测模型对新缺陷报告进行预测:利用引入了维基百科的语料库的bert模型将缺陷报告中描述信息生成仅有768维句子向量,同时利用borderline‑smote算法实现了由句子向量及严重程度构成的样本集中各类样本的均衡,提高软件缺陷严重程度预模型的训练效率及检测准确性。

技术领域

本发明属于软件质量保障领域,尤其涉及适用于海量不均衡缺陷报告的软件缺陷严重程度预测方法。

背景技术

软件缺陷报告严重程度预测通过挖掘软件历史库(例如版本控制系统、缺陷跟踪系统等),构建软件缺陷报告严重程度预测模型,来自动标注软件缺陷报告严重程度,通过根据软件缺陷报告严重程度将相应的软件缺陷分配给合适的开发人员,可以优化软件缺陷修复资源的分配,从而有效地提高软件产品的质量。

逻辑回归模型属于分类模型,利用逻辑回归算法构建软件缺陷报告严重程度预测模型时,软件在使用过程中由于使用者、运行环境的各异性造成了大量的缺陷报告,如果直接对缺陷报告简单地去除特殊字符,分词,词频统计,向量化(数值向量)会形成海量的训练样本,导致了软件缺陷报告严重程度预测模型训练效率低下;另外由于大量的缺陷报告构建的训练样本存在正负样本不均衡问题,经过不均匀样本训练出来的软件缺陷报告严重程度预测模型在后期进行预测时会导致预测不准确的问题。

发明内容

为了解决上述问题,本发明提供一种适用于海量不均衡缺陷报告的软件缺陷严重程度预测方法,利用引入了维基百科的语料库的bert模型将缺陷报告中描述信息summary生成仅有768维句子向量,同时利用borderline-smote算法实现了由句子向量及严重程度severity构成的样本集中各类样本的均衡,本发明在bert模型训练阶段,引入外部大型语料库,可以使缺陷报告的语义信息被充分利用同时大大降低了样本集的维度,提高了后面软件缺陷报告严重程度预测模型的训练效率;另外borderline-smote算法缓解了缺陷报告数据集各类别数量不平衡问题给模型性能带来的负面影响,提高软件缺陷严重程度预模型的训练效率及检测准确性。

为了实现以上目的,本发明采取的一种技术方案是:

一种适用于海量不均衡缺陷报告的软件缺陷严重程度预测方法,所述预测方法包括以下步骤:

步骤1.构建缺陷报告数据集DBR

从项目所托管的软件缺陷跟踪系统中搜集历史缺陷报告,针对每一份缺陷报告抽取所述缺陷报告中描述信息summary和严重程度severity两个属性的信息,构建缺陷报告数据集DBR

步骤2.构建缺陷报告样本集:

对所述缺陷报告数据集DBR的严重程度severity进行预处理得到新缺陷报告数据集D′BR,利用训练好的bert模型处理新缺陷报告数据集D′BR中描述信息summary得到句子向量集,利用句子向量集和严重程度severity构建缺陷报告样本集,所述构建缺陷报告样本集中的单个样本由句子向量和严重程度severity组成;

步骤3.利用borderline-smote算法实现建缺陷报告样本集中的样本均衡;

步骤4.利用均衡后的缺陷报告样本集训练逻辑回归模型得到缺陷报告严重程度预测模型;

步骤5.利用缺陷报告严重程度预测模型对新缺陷报告进行预测:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110281981.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top