[发明专利]基于在线增量演化主题模型的软件自动分类方法有效
申请号: | 201210097171.1 | 申请日: | 2012-04-05 |
公开(公告)号: | CN102902700A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 尹刚;王怀民;朱沿旭;余跃;史殿习;李翔;王涛;袁霖 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 增量 演化 主题 模型 软件 自动 分类 方法 | ||
技术领域
本发明涉及软件自动分类技术领域,尤其涉及一种基于在线增量演化主题模型的软件自动分类方法,该方法通过在线增量式的建立开源社区软件文本流的主题模型,自动挖掘软件文本流中隐含的主题,并将每一个开源软件文本分配到挖掘得到的主题中,然后对该主题自动添加相应的语义标签,从而实现开源软件的自动分类。
背景技术
开源软件(又称开放源代码软件)是一种源代码可以任意获取的计算机软件。开源软件通常是按照某种许可证协议发布的,许可证协议可以保障软件用户自由使用及接触源代码的权利,用户可以遵照许可证协议自行修改、复制以及再分发开源软件。开源社区又称为开放源代码社区,是根据相应的开源软件许可证协议公布源代码的平台,当前最典型的开源社区是基于Web的托管网站,例如Sourcefbrge.net。通常开源社区中提供了较为完善的用于辅助开源软件开发的基础设施(代码库、邮件列表和错误追踪系统等),开源社区的参与者利用基础设施建立开源软件项目,并在社区中通过协同开发的方式完成软件代码的编制、测试和发布,最终形成具有特定功能并能下载使用的软件程序。开源社区中除了包含丰富的源代码之外,还包含大量的软件文本,比如开发过程文本(需求、设计文档)、邮件通信记录、软件测试报告和软件描述文本等等。
随着开源软件及其应用的飞速发展,互联网中开源社区已经形成了规模巨大、种类丰富的开源软件。为了有效的管理和组织海量的软件资源,方便用户搜索,通常将软件按照功能、运行平台、编程语言、开发状态、软件许可证等维度进行分类,其中最主要的就是按照功能分类,通常分类按照层次结构组织,每个类属称为一个主题,每个主题反映了软件功能应用的领域,在此我们将这种主题的层次结构称为软件主题分类本体(taxonomy)。用户通过浏览主题分类本体,可以从指定的分类中进一步查找自己需要的软件。软件主题分类本体对于浏览式的软件搜索是至关重要的。
软件主题分类本体是由各软件社区的组织者制定的,每个软件提交者根据软件的功能参照主题分类本体为软件选择最合适的一个或多个主题。为了选择每一个适合软件的主题,软件提交者需要浏览整个软件分类本体,这通常会使他们感到不方便,很多提交者可能会由于缺乏耐心而放弃选择主题,或者直接选择无主题;另外,由于分类本体的局限性,提交者很有可能在主题分类本体中找不到适合自己软件的主题。所以通过人工的方式为软件项目选择主题,开销将是巨大的,如何为软件进行自动分类成为了极具挑战的问题。
现有的软件自动分类方法通常利用软件文本(比如代码、注释、开发过程文本、开发日志、网页等等)来表征软件,通过文本分类和挖掘领域的技术对软件文本进行自动分类,从而间接实现对软件的自动分类。现有的软件自动分类方法主要基于主题挖掘技术,通过建立软件文本主题模型,将软件文本集合按照主题进行聚类,聚类的结果是每个软件文本自动归属于某个聚类主题,从而达到软件自动分类的目标,这类方法最主要的局限有两个:(1)聚类主题通常都只是用特征关键词列表表示,而没有使用语义类标来标注这些聚类,要判断一个主题的语义需要人工判断,目前也有研究提出了标注方法,但是需要利用非软件领域的第三方词汇本体比如wordnet,增加了复杂度,效果并不理想;(2)开源社区的软件文本集合通常都是以很快的速度增长,大量新词汇的出现增长和消亡的演化规律决定了文本主题也是随时间演化的,那么如果按照静态的主题发现方法,就会生成错误的软件分类,所以需要动态挖掘文本主题在线演化的规律。比如,通过分析ceForge社区在2003年和2011年关于Internet主题的分类本体(taxonomy),发现由于社区主题的演化,相对于03年的分类本体,2011年的本体新增了很多项,如blogging、wiki等,这些项是社区的设计者根据社区内项目主题的变化,人为修改增加的。(3)开源社区中的软件文本集合是庞大的,同时主题挖掘技术的开销是巨大的,如果利用主题挖掘技术对开源社区的所有文本进行挖掘是不现实的,所以需要提供一种更高效的分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210097171.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热敏电阻
- 下一篇:高精密散热型金属箔电阻器