[发明专利]一种基于语义模型的缺陷报告自动分类方法在审
申请号: | 201810494332.8 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108804558A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 郑征;杜晓婷;龚晶;杨超峰;倪书豪 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/36;G06N99/00 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义模型的缺陷报告自动分类方法,步骤如下:(1)从缺陷追踪系统中筛选缺陷报告,编写爬虫软件从缺陷追踪系统中抓取所需的缺陷报告并下载到本地计算机,提取缺陷报告的文本信息;(2)对文本进行预处理,排除文本中包含的干扰信息并保留有用信息;(3)通过深度学习,训练缺陷报告的语义模型,将缺陷报告文本中的每个单词训练成为可以表示语义关系的低维实数词向量,使用词向量对所要分类的缺陷报告进行表示;(4)以步骤(3)得到的数据为输入,使用机器学习的方法对缺陷报告进行多个粒度的自动分类。本发明通过训练缺陷报告语义模型,将语义信息引入到缺陷报告的自动分类中,提高了对缺陷报告进行自动分类的准确率。 | ||
搜索关键词: | 缺陷报告 自动分类 语义模型 追踪系统 文本 预处理 抓取 干扰信息 爬虫软件 使用机器 文本信息 语义关系 语义信息 词向量 准确率 低维 下载 向量 单词 筛选 计算机 分类 学习 引入 保留 | ||
【主权项】:
1.一种基于语义模型的缺陷报告自动分类方法,其特征在于:该方法包括以下步骤:1)、从缺陷追踪系统中筛选缺陷报告,编写爬虫软件从缺陷追踪系统中抓取所需的缺陷报告并下载到本地计算机,提取缺陷报告的文本信息;2)、对文本信息进行预处理,排除文本信息中包含的干扰信息并保留有用信息;3)、以上述步骤2)中预处理后的缺陷报告为数据,通过深度学习,训练缺陷报告的语义模型,将缺陷报告文本中的每个单词训练成为可以表示语义关系的低维实数词向量,对每个缺陷报告文本中单词的词向量取平均值作为该缺陷报告的向量表示;4)、以上述步骤3)得到的每个缺陷报告的向量表示为输入,使用机器学习的方法对缺陷报告进行多个粒度的自动分类,包括将缺陷报告分类为真实缺陷和非真实缺陷,将真实缺陷分类为波尔缺陷和曼德尔缺陷,将曼德尔缺陷分类为老化缺陷和非老化缺陷,根据软件缺陷触发条件的复杂性和造成软件老化的分布原因,对老化缺陷和非老化缺陷进行进一步的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810494332.8/,转载请声明来源钻瓜专利网。
- 上一篇:医学期刊论文推荐方法及系统
- 下一篇:一种移动应用内容获取方法及装置