[发明专利]一种基于深度神经网络的软件缺陷定位方法有效

申请号：	201910368699.X	申请日：	2019-05-05
公开（公告）号：	CN110109835B	公开（公告）日：	2021-03-30
发明（设计）人：	徐玲;王备;帅鉴航;何健军;杨梦宁;张小洪;杨丹;葛永新;洪明坚;王洪星;黄晟;陈飞宇	申请（专利权）人：	重庆大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06K9/62;G06N3/04;G06N3/08
代理公司：	重庆晟轩知识产权代理事务所(普通合伙) 50238	代理人：	杨晓磊
地址：	400044 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种基于深度神经网络的软件缺陷定位方法(DMF‑BL)，该方法主要从缺陷报告和代码文件等文本数据中提取了文本相似度、结构信息相似度、基于协同过滤算法的缺陷报告相似度、基于缺陷修复历史的相似度和类名相似度五个特征，并利用深度神经网络来整合这些特征，从而捕获特征之间的非线性关系。同时，该方法在六个项目中的23000个缺陷报告上评估了软件缺陷定位的能力，结果表明，不管是Top 1、5和10中成功定位缺陷的准确率还是平均精度均值(MAP)，DMF‑BL的性能都要优于目前的缺陷定位技术。
搜索关键词：	一种基于深度神经网络软件缺陷定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于深度神经网络的软件缺陷定位方法，其特征在于，包括如下步骤：S1：收集待测软件的相关数据访问缺陷跟踪系统获取软件的缺陷报告，使用GIT工具获取软件的代码文件及API文档；S2：数据预处理对S1中收集的缺陷报告进行预处理得到如下数据：缺陷报告集合每个缺陷报告x_i代表缺陷报告中的一个单词，缺陷报告集合B的个数记为d_b；缺陷报告修复时间向量t_l表示缺陷报告修复的时间；缺陷报告提交时间向量ts_l表示缺陷报告b_l提交的时间；对S1中获得的代码文件进行预处理得到如下数据：代码文件集合每个代码文件y_i代表代码文件中的一个单词，代码文件集合S的个数记为d_s；代码文件的名称向量单词sn_m表示代码文件的名称；对S1中获取的API文档进行预处理得到如下数据：API文档集合z_k代表API文档的一个单词；API文档的名称向量da_n表示API文档的名称；每个缺陷报告对应一组标签tag_i表示缺陷报告所对应的代码文件的名称；其中l、m、n，i、j和k均为正整数；S3：为每个代码文件添加对应的API描述遍历代码文件集合S，对于每一个遍历向量若j＝n时，y_j＝da_n，则构成集合其中S4：提取如下五个特征S41：文本相似度分别构造缺陷报告向量空间和和代码文件的向量空间用于记录单词和单词出现的次数，和初始化为空集；遍历缺陷报告集合B，对于每一个向量都将其添加到向量空间中；遍历集合S′，对于每一个向量都将其添加到向量空间中；对于和保留单词出现次数较多的单词，舍去其余记录的单词，得到新的向量空间V′_B和V′_S；将和收尾相连形成新的词汇向量将相同的单词仅保留一个，并将单词出现的次数合并；记d_i是缺陷报告集合B中包含单词x_i的向量的数量，单词x_i对应的逆文档频率遍历缺陷报告集合B，对于每一个向量设向量为在向量空间上的映射，大小为n_bs，若x_i属于向量空间单词x_i在向量中出现的次数记为则单词x_i在向量中出现的词频单词x_i对应的权重大小记d_j是集合S′中包含单词y_j的向量的数量，单词y_j对应的逆文档频率遍历集合S′，对于每一个向量设向量为在向量空间上的映射，大小为n_st，若y_j属于向量空间单词y_j在向量中出现的次数记为f_j，则单词y_j在向量中出现的词频单词y_j对应的权重大小遍历缺陷报告集合B和集合S′，对于每个向量组令N_term为向量的长度，缺陷报告和代码文件的文本相似度S42：基于协同过滤算法的缺陷报告相似度遍历代码文件集合S，对每一个代码文件建立逆标签集合C_m，并初始化C_m为空集；遍历缺陷报告集合B，对于每一个缺陷报告对应的标签将与进行对比，若便把向量添加至集合C_m中；遍历缺陷报告集合B和代码文件集合S，对于每个向量组遍历集合C_m，若计算与的余弦相似度，得相似度向量其中sim_n表示与的余弦相似度；将向量按从大到小的顺序排列，得到其中每个元素已做正则化处理计算缺陷报告和代码文件的基于协同过滤算法的缺陷报告相似度这里n≤3；S43：基于缺陷修复历史的相似度新建代码文件修复事件集合表示代码文件被修复的历程，初始化为空向量；遍历缺陷报告集合B，对于每一个缺陷报告都有其对应的t_l和若则在向量中添加元素t_l；遍历集合F，对于每一个向量将元素从晚到早顺序排列，得遍历向量和集合F，对于每个缺陷报告和代码文件若对应的提交时间为ts_l，对应的修复事件向量为将中大于ts_l的元素删除，得计算缺陷报告和代码文件的基于缺陷修复历史的相似度p为正整数，上述K值根据软件缺陷报告提交的频率决定；S44：类名相似度遍历缺陷报告集合B和向量对于每一个缺陷报告和代码文件名称sn_m，若记缺陷报告和代码文件的类名相似度反之，记将类名相似度归一化；S45：结构信息相似度将缺陷报告集合B拆分为集合Summary和集合Description，其中Summary是缺陷报告中的summary，记Description是缺陷报告中的description，记则将代码文件集合S拆分成四个集合Class、Method、Var和Comment，Class是缺陷报告中的class，Method是缺陷报告中的method，Var是缺陷报告中var，Comment是缺陷报告中的comment，记则遍历缺陷报告集合B和代码文件集合S，对于缺陷报告和代码文件使用简单共有词方法计算如下文本相似度：计算缺陷报告和代码文件的结构信息相似度S5：CNN非线性组合S51：使用步骤S4中的五个特征构造训练数据集，对于每一个缺陷报告有5×d_s个特征值，构造特征值矩阵缺陷报告对应的标签为S52：构建卷积神经网络权重初始化采用标准正态分布；C₁：卷积层共有12个卷积核和12个偏移量，其中5×1的卷积核3个，分别为得矩阵大小为1×d_s；4×1的卷积核3个，分别为得矩阵大小为2×d_s；3×1的卷积核3个，分别为得矩阵大小为3×d_s；2×1的卷积核3个，分别为得矩阵大小为4×d_s；C₂：池化层采用单列最大池化策略；C₃：采用矩阵拼接的形式构建新矩阵，共得到如下4个矩阵是由拼接而成，大小为4×d_s；是由拼接而成，大小为4×d_s；是由拼接而成，大小为4×d_s；是由拼接而成，大小为4×d_s；C₄：卷积层共有3个卷积核和3个偏移量，卷积核大小为3×1，得12个矩阵，大小都为2×d_s；C₅：卷积层共有3个卷积核和3个偏移量，卷积核大小为2×1，得36个矩阵，大小都为1×d_s；C₆：全连接层，权重矩阵为偏移向量B₆，C₇：分类，将C₆展开得得缺陷报告的预测值向量Y_l满足其中，误差函数：采用梯度下降法更新参数；S6：对于新的缺陷报告通过S4计算5个特征值，构建特征矩阵，利用S5已训练好的CNN模型，得出对应预测值向量对到进行大小排序，得可能具有缺陷的代码文件列表，排名越靠前可能性越大。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910368699.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度神经网络的软件缺陷定位方法有效

专利文献下载