[发明专利]一种基于LDA主题模型的相关软件历史数据提取方法有效
申请号: | 201410029273.9 | 申请日: | 2014-01-22 |
公开(公告)号: | CN103729473B | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 孙小兵;李云;杨智松;刘湘月 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东 |
地址: | 225009 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于LDA主题模型的相关软件历史数据提取方法,充分利用LDA技术对软件故障库、软件版本控制库、以及开发人员通信库进行分析,提取这些软件演化历史库中的主题,然后根据这些主题与当前维护请求和当前软件版本进行相似性的比较和分析,把具有较相关的软件历史数据提取出来,基于这些相关数据的分析,可提高软件维护和演化各种分析活动的精确性和有效性,该技术在实际应用中不受程序语言约束,可应用于各种编程语言的软件中,提高了该技术可应用的范围。 | ||
搜索关键词: | 一种 基于 lda 主题 模型 相关 软件 历史数据 提取 方法 | ||
【主权项】:
一种基于LDA主题模型的相关软件历史数据提取方法,其特征在于,包括以下步骤:步骤1:将软件当前所需的维护请求进行预处理,所述预处理过程包括将请求语句进行分解,表示成用于相似度计算的一个由单词组成的向量MR;步骤2:从软件演化历史库中选取故障跟踪库和通信库进行分析;通过LDA主题模型对故障跟踪库和通信库进行分析,提取潜在主题,故障跟踪库所提取的主题用矩阵B表示,通信库所提取的主题用矩阵C表示,然后,分别计算矩阵B、矩阵C中和向量MR中相似的元素,识别出与向量MR中维护请求元素相对应的故障跟踪库中的故障元素Bug以及通信库中的通信元素Comm;步骤3:利用LDA主题模型从当前软件版本中提取潜在主题,所提取的主题用向量Cu表示;步骤4:利用LDA主题模型对软件版本控制库进行分析,提取潜在主题,所提取的主题用矩阵U表示;然后,计算矩阵U中和所述向量Cu相似的软件版本元素V2;步骤5:找出步骤2中计算得到故障元素Bug和通信元素Comm所对应的软件版本元素V1,另外,找出步骤4中计算得到的软件版本元素V2,最终,计算得出所有与当前维护请求和当前软件版本相关的的软件数据为V=V1∪V2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410029273.9/,转载请声明来源钻瓜专利网。
- 上一篇:用于识别论坛用户马甲账号的方法和系统
- 下一篇:三维文件处理方法和装置