[发明专利]一种基于质量过滤器的缺陷报告标题自动生成方法在审

专利信息
申请号: 202210379210.0 申请日: 2022-04-12
公开(公告)号: CN114676298A 公开(公告)日: 2022-06-28
发明(设计)人: 林浩;陈翔;陈雪娇;苏展;缪芸;杨光;刘珂;周彦琳;于池 申请(专利权)人: 南通大学
主分类号: G06F16/9035 分类号: G06F16/9035;G06F16/951;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 张俊俊
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 质量 过滤器 缺陷 报告 标题 自动 生成 方法
【权利要求书】:

1.一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括以下步骤:

(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval

(2)对训练集Dtrain和验证集Dval进行数据预处理,用于提升数据集质量;

(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen

(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;

(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题;

其中,步骤(2)具体包括以下步骤:

2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:

②标题长度少于5个单词或大于15个单词或含有URL的;

②标题中有超过70%的单词未在内容中出现的;

③占标题70%以上长度的字符串出现在缺陷报告内容中;

2-2)对缺陷报告的标题和内容进行进一步处理,使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“I”、“I$”标识符,在版本号前后插入“V”、“V$”标识符;通过上述处理,使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且在生成标题时直接复制这些信息,从而生成高质量标题。

2.根据权利要求1所述的基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,所述步骤(3)中,构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤,具体包括如下步骤:

3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;

①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;

②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值,BLEU指标可以评估两段文字之间的相似度,基于BLEU指标值构造训练基于深度学习的质量过滤器模块的数据集Dqua,若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;

③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集,并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;

Transformer的超参和对应取值如下:

所述Transformer模型的编码器数量设置为两个;

所述Transformer模型的注意力头数设置为五个;

所述Transformer模型的词向量维度设置为300;

所述Transformer模型的隐藏层数量设置为两层;

所述Transformer模型的最大输入长度设置为100;

所述Transformer模型的dropout设置为0.5;

所述Transformer模型的优化器设置为Adam;

所述Transformer模型的学习率设置为0.001;

所述Transformer模型的一次训练所抓取的数据样本数量设置为256;

所述Transformer模型的激活函数设置为Relu;

④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,预测出是否可以生成高质量标题;

3-2)构建基于信息检索的质量过滤器模块;

①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;

②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;

③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;

④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告,若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测生成高质量标题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210379210.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top