[发明专利]一种基于语义模型的缺陷报告自动分类方法在审

申请号：	201810494332.8	申请日：	2018-05-22
公开（公告）号：	CN108804558A	公开（公告）日：	2018-11-13
发明（设计）人：	郑征;杜晓婷;龚晶;杨超峰;倪书豪	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F11/36;G06N99/00
代理公司：	北京慧泉知识产权代理有限公司 11232	代理人：	王顺荣;唐爱华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于语义模型的缺陷报告自动分类方法，步骤如下：(1)从缺陷追踪系统中筛选缺陷报告，编写爬虫软件从缺陷追踪系统中抓取所需的缺陷报告并下载到本地计算机，提取缺陷报告的文本信息；(2)对文本进行预处理，排除文本中包含的干扰信息并保留有用信息；(3)通过深度学习，训练缺陷报告的语义模型，将缺陷报告文本中的每个单词训练成为可以表示语义关系的低维实数词向量，使用词向量对所要分类的缺陷报告进行表示；(4)以步骤(3)得到的数据为输入，使用机器学习的方法对缺陷报告进行多个粒度的自动分类。本发明通过训练缺陷报告语义模型，将语义信息引入到缺陷报告的自动分类中，提高了对缺陷报告进行自动分类的准确率。
搜索关键词：	缺陷报告自动分类语义模型追踪系统文本预处理抓取干扰信息爬虫软件使用机器文本信息语义关系语义信息词向量准确率低维下载向量单词筛选计算机分类学习引入保留
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语义模型的缺陷报告自动分类方法，其特征在于：该方法包括以下步骤：1)、从缺陷追踪系统中筛选缺陷报告，编写爬虫软件从缺陷追踪系统中抓取所需的缺陷报告并下载到本地计算机，提取缺陷报告的文本信息；2)、对文本信息进行预处理，排除文本信息中包含的干扰信息并保留有用信息；3)、以上述步骤2)中预处理后的缺陷报告为数据，通过深度学习，训练缺陷报告的语义模型，将缺陷报告文本中的每个单词训练成为可以表示语义关系的低维实数词向量，对每个缺陷报告文本中单词的词向量取平均值作为该缺陷报告的向量表示；4)、以上述步骤3)得到的每个缺陷报告的向量表示为输入，使用机器学习的方法对缺陷报告进行多个粒度的自动分类，包括将缺陷报告分类为真实缺陷和非真实缺陷，将真实缺陷分类为波尔缺陷和曼德尔缺陷，将曼德尔缺陷分类为老化缺陷和非老化缺陷，根据软件缺陷触发条件的复杂性和造成软件老化的分布原因，对老化缺陷和非老化缺陷进行进一步的分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810494332.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义模型的缺陷报告自动分类方法在审

专利文献下载