[发明专利]基于终身主题模型的bug知识库的建立方法在审
申请号: | 201610486068.4 | 申请日: | 2016-06-23 |
公开(公告)号: | CN106202203A | 公开(公告)日: | 2016-12-07 |
发明(设计)人: | 孙小兵;王璐;李斌;朱俊武 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京中新达专利代理有限公司 32226 | 代理人: | 孙鸥;朱杰 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于终身主题模型的bug知识库的建立方法。本发明将软件历史库中bug报告及commit信息用主题模型进行处理,提取bug报告及commit数据中主题词,当检索时,先使用分词与关键词提取用户输入的关键词,将其与主题词进行匹配、计算相似度、进行排序,最终返回给用户;有新数据需要对bug知识库进行数据更新操作时,采用终身学习模式,从已有数据中通过主题模型提取先验知识,并将其与新数据提取出的可用知识进行匹配,判断是新的数据还是已有的数据,从而进行数据的自动更新操作。本发明克服了过去费时、不准确的缺陷。本发明通过提取主题词建立多领域间数据关系,提供更准确全面的检索结果,帮助软件开发和维护人员了解和解决bug问题,大大缩短时间。 | ||
搜索关键词: | 基于 终身 主题 模型 bug 知识库 建立 方法 | ||
【主权项】:
基于终身主题模型的bug知识库的建立方法,其特征在于如下步骤:(1)将软件历史库中的bug报告和commit数据进行预处理,整理成统一的数据格式,并提取出对应的描述信息;(2)使用LDA模型对上述通过整理得到bug报告及commit数据中的描述信息进行处理,从中分别提取每条数据的主题词,并使用LDM模型计算主题词的分布,并放在集合A中;(3)将上述得到的主题词集A中的主题词根据主题词在数据描述信息中的分布将主题词与数据间建立一对多的对应关系;(4)从上述数据中抽取并建立bug报告与bug报告、bug报告与commit数据之间的关系,从而建立一个bug知识库,并将其存放在图形数据库中;(5)使用终身学习模型即LTM模型,结合步骤(2)中的主题词集A生成先验知识,将这些先验知识放在集合B中;(6)当用户在bug知识库中对bug信息进行检索时,使用关键词提取技术提取用户检索时输入的关键词信息;(7)将上述提取出的关键词与步骤(2)得到的A中的主题词相匹配,计算它们之间的相似度,并根据步骤(4)中建立好数据间的关系找出与之相关的数据;(8)从上述中提取出相似度较高的结果,并将其按相似度高低进行排序,将相关的检索结果返回给用户;(9)当有新的数据时,对新的数据集进行自然语言处理,将数据处理成需要的格式,并分别从中提取出描述信息;(10)使用LTM模型对上述提取出的描述信息进行处理,生成新数据的主题词存放在集合C中,并使用终身学习模型计算主题词的分布;(11)根据步骤(2)与步骤(10)计算得到的主题词分布,匹配主题词集A与C并找出主题词集C中可用的知识集B’;(12)结合步骤(5)中的先验知识集B和步骤(11)中的可用知识集B’进行比较,看新的数据是否原数据库中是已有的,若不是则将其相应数据信息添加进bug知识库,若已存在则将其进行替换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610486068.4/,转载请声明来源钻瓜专利网。