[发明专利]一种基于信息检索的大规模软件信息站标签推荐方法有效

专利信息
申请号: 201710086114.6 申请日: 2017-02-17
公开(公告)号: CN107341169B 公开(公告)日: 2020-02-11
发明(设计)人: 周平义;茅志仁;刘进;崔晓辉;施泽洋;彭新宇 申请(专利权)人: 武汉大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2457;G06F16/901;G06F16/9535;G06K9/62
代理公司: 42222 武汉科皓知识产权代理事务所(特殊普通合伙) 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 信息 检索 大规模 软件 标签 推荐 方法
【说明书】:

发明涉及一种基于信息检索的大规模软件信息站标签推荐方法,包括,步骤1:预处理生成软件对象集合;步骤2:为集合中对象创建索引。步骤3:计算相似得分,取得分高的软件对象构成候选集合;步骤4:计算标签得分,取得分高的推荐给开发者。本发明具有如下优点:1.本方法对规模不断增大的软件信息站自动推荐标签并缓和标签急剧增长的问题;2.本方法提出一个基于标签多分类算法,可以处理上百万的软件对象;3.本方法推荐更加准确;4.本发明创建的TagMulRec相比已经存在的EnTagRec等标签推荐方法具有更好的可扩展性和稳定性,速度上提了三个量级。

技术领域

本发明属于软件工程技术领域,适用于规模不断增大的大规模软件信息站,实现自动推荐标签,是可扩展的多标签推荐方法;具体涉及一种基于信息检索的大规模软件信息站标签推荐方法。

背景技术

软件信息站为软件开发者查询解决方案,分享经验,提供帮助以及学习新的技术提供了不可或缺的平台。软件信息站包括在线开发者问答社区,例如StackOverflow,AskUbuntu,AskDifferent以及一些开源软件社区,例如Freecode,GitHub等。随着软件信息站的发展,软件对象的数目显著增长,导致软件开发者不知道如何定位一个特别的软件对象。为了解决这个问题,有一个典型的实践方法,那就是开发者在发布一个软件时对软件贴上一些标签,而且是社会媒体中常见的标签。由于标签通常由几个单词或者仅仅是单词缩写组成,他们提供了软件信息站上搜索,描述,识别,标签,分类以及组织软件对象的元数据。大多数软件信息站为了提高网站上不同操作的效率和准确性,依靠标签来对网站内容进行分类。从而标签的质量对于这些网站就显得尤为重要。高质量的标签通常是简约的并且可以直接描述软件对象最重要最显著的特性。

然而定标签本身就是很不和谐的一个过程。每一个软件开发者作为一个独立的个体,他们对于软件对象的认知和理解是不一样的,并且他们的英语水平以及语言习惯存在差异,这就导致软件对象的标签快速增长以至出现大量冗余。例如,在StackOverflow上,如下标签SCC,source-code-contrl,SCCS以及几个其他的单词都是用来描述版本控制的。此外,软件对象可以被多个不同的标签来标记。比如,StackOverflow建议一个对象三至五个标签而Freecode可以允许每个对象多于是个标签。随着软件对象的增多,标签的数目急剧增长。截至今日,StackOverflow已经有超过两千万的问题和四万六千多个标签。有如此多的的标签,其中甚至存在很多噪声,导致软件对象的分类效果很差。这种现象直接影响了软件开发者的查询体验。

标签推荐已经成为社交网络和数据挖掘领域的一个热门研究。2010年软件工程领域的自动标签推荐第一次被AI-Kofahi等人提出来。AI-Kofahi提出了TAGREC方法为IBMJazz的工作项目自动推荐标签。TAGREC基于模糊集理论并且考虑了系统的动态发展。后来一个叫TAGCOMBINE的方法被提出。TAGCOMBINE可以为软件信息站的软件对象自动推荐标签,包含了多标签排名组件,基于相似性的排名组件以及标签项排名组件。TAGCOMBINE采用的多标签排名方法导致他的应用只能限制在相当小的数据集。对于大规模的软件信息站如StackOverflow@large,需要训练超过四万二分类模型并且每个训练集的估摸超过千万。最近的一个叫EnTagRec的方法在精确率和召回率要优于TAGCOMBINE,EnTagRec包括贝叶斯推理组件和频率推理组件。因为EnTagRec是利用软件信息站的所有信息来对软件对象进行推荐,所以它的可扩展性也不好。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710086114.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top