[发明专利]一种基于质量过滤器的缺陷报告标题自动生成方法在审

申请号：	202210379210.0	申请日：	2022-04-12
公开（公告）号：	CN114676298A	公开（公告）日：	2022-06-28
发明（设计）人：	林浩;陈翔;陈雪娇;苏展;缪芸;杨光;刘珂;周彦琳;于池	申请（专利权）人：	南通大学
主分类号：	G06F16/9035	分类号：	G06F16/9035;G06F16/951;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	张俊俊
地址：	226019 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于质量过滤器缺陷报告标题自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于质量过滤器的缺陷报告标题自动生成方法，其特征在于，包括以下步骤：

(1)从GitHub上选择高质量开源项目，通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D，随后按照80％:20％的比例依次构造训练集D_train和验证集D_val；

(2)对训练集D_train和验证集D_val进行数据预处理，用于提升数据集质量；

(3)基于训练集D_train和验证集D_val，使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型M_Gen；

(4)构建基于双模块的质量过滤器，两个模块分别基于信息检索方法和深度学习方法构建，实现协同过滤；

(5)当输入新的缺陷报告内容后，基于两个过滤器，分别计算出预测结果，①如果两个模块都预测基于该缺陷报告内容，不能生成高质量标题，则输出警告信息；②否则，调用模型M_Gen，生成缺陷报告的标题；

其中，步骤(2)具体包括以下步骤：

2-1)首先使用正则表达式，过滤并移除数据集中的三类低质量缺陷报告：

②标题长度少于5个单词或大于15个单词或含有URL的；

②标题中有超过70％的单词未在内容中出现的；

③占标题70％以上长度的字符串出现在缺陷报告内容中；

2-2)对缺陷报告的标题和内容进行进一步处理，使用正则表达式筛选出开发人员自己定义的变量名和版本号，在自定义的变量名前后插入“I”、“I$”标识符，在版本号前后插入“V”、“V$”标识符；通过上述处理，使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息，并且在生成标题时直接复制这些信息，从而生成高质量标题。

2.根据权利要求1所述的基于质量过滤器的缺陷报告标题自动生成方法，其特征在于，所述步骤(3)中，构建基于双模块的质量过滤器，两个模块分别基于信息检索方法和深度学习方法构建，实现协同过滤，具体包括如下步骤：

3-1)基于训练集D_train和验证集D_val，构建基于深度学习的质量过滤器模块；

①使用模型M_Gen，为训练集D_train和验证集D_val中的缺陷报告生成标题；

②依次计算训练集D_train和验证集D_val中每个缺陷报告生成标题和原标题间的BLEU指标值，BLEU指标可以评估两段文字之间的相似度，基于BLEU指标值构造训练基于深度学习的质量过滤器模块的数据集D_qua，若BLEU指标取值超过0.1，则将该缺陷报告的标签赋值为1，否则将该缺陷报告的标签赋值为0；

③将数据集D_qua按照70％和30％的比例进行分层采样以形成训练集和验证集，并基于该训练集和验证集，基于Transformer构建出基于深度学习的质量过滤器模块；

Transformer的超参和对应取值如下：

所述Transformer模型的编码器数量设置为两个；

所述Transformer模型的注意力头数设置为五个；

所述Transformer模型的词向量维度设置为300；

所述Transformer模型的隐藏层数量设置为两层；

所述Transformer模型的最大输入长度设置为100；

所述Transformer模型的dropout设置为0.5；

所述Transformer模型的优化器设置为Adam；

所述Transformer模型的学习率设置为0.001；

所述Transformer模型的一次训练所抓取的数据样本数量设置为256；

所述Transformer模型的激活函数设置为Relu；