[发明专利]一种基于质量过滤器的缺陷报告标题自动生成方法在审
申请号: | 202210379210.0 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114676298A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 林浩;陈翔;陈雪娇;苏展;缪芸;杨光;刘珂;周彦琳;于池 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/951;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 张俊俊 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 质量 过滤器 缺陷 报告 标题 自动 生成 方法 | ||
1.一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括以下步骤:
(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval;
(2)对训练集Dtrain和验证集Dval进行数据预处理,用于提升数据集质量;
(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen;
(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;
(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题;
其中,步骤(2)具体包括以下步骤:
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:
②标题长度少于5个单词或大于15个单词或含有URL的;
②标题中有超过70%的单词未在内容中出现的;
③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“I”、“I$”标识符,在版本号前后插入“V”、“V$”标识符;通过上述处理,使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且在生成标题时直接复制这些信息,从而生成高质量标题。
2.根据权利要求1所述的基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,所述步骤(3)中,构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤,具体包括如下步骤:
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值,BLEU指标可以评估两段文字之间的相似度,基于BLEU指标值构造训练基于深度学习的质量过滤器模块的数据集Dqua,若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集,并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu;
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,预测出是否可以生成高质量标题;
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告,若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测生成高质量标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210379210.0/1.html,转载请声明来源钻瓜专利网。