[发明专利]一种软件问答社区中的技术标签推荐方法有效
申请号: | 201711042537.4 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107798624B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 孙海龙;刘旭东;张建;田言飞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/955;G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 问答 社区 中的 技术 标签 推荐 方法 | ||
本发明首基于深度学习提出面向软件问答社区的标签推荐方法。该项方法包括:步骤1,预处理;步骤2,词义表示学习;步骤3,短语以及句子语义学习;步骤4,语义融合;在预处理前为训练阶段,所述训练阶段用于构造词典并保存模型的结构与权重;在预处理后为部署阶段,所述部署阶段则是对于新的问题,在转化成索引序列后,加载保存的模型以预测并推荐最有可能的K个标签,K为正整数。本发明可以提供软件问答社区中的问题资源管理、维护已有的标签系统的功能,并且为用户提供自动化的标签标注服务。针对现有的标签推荐技术存在的缺陷,本发明可以提高准确性以及效率,使得标签推荐在软件问答社区中能够更加实用。
技术领域
本发明涉及一种系统推荐方法,尤其涉及一种软件问答社区中的技术标签推荐方法。
背景技术
软件问答社区是指专注于解决技术性问题以及软件开发的问答社区,例如全球影响力较大的Stack Overflow社区。因其庞大的用户与资源量(超过五百万的用户数,千万级的问题、回答数),使得软件资源管理变得复杂。为了缓解这一问题,Stack Overflow要求用户在提出问题时给出1~5个Tag,即技术性标签。而由于部分提问者对自己提出的技术问题缺乏足够的理解以及设置标签本身存在极大的自由度,使得这种Tag系统变得臃肿,违背了其初衷。因此,研究人员研究了自动化的标签(Tag)推荐方法,即用户在给出问题描述后,能够自动的把合适的标签推荐给用户的方法。
现有技术中,面向软件问答社区的代表性标签推荐技术包括基于贝叶斯学习、Labeled-LDA以及信息检索的方法,分别称为TagCombine、EnTagRec以及TagMulRec。其中,TagCombine是研究人员首次提出的应用在互联网软件信息社区中的Tag推荐技术。该技术主要考虑了问题中的文本信息,包含三个不同组件:多标签排序、基于相似度计算以及基于标签-术语(tag-term)的排序组件。多标签排序是利用多项式朴素贝叶斯分类器来对问题进行分类的组件;基于相似度计算的组件是通过TF-IDF方法搜索相似的问题并推荐这些问题的标签;基于标签-术语的排序组件则是根据历史标记计算出问题中的术语与标签的亲和度,以此进行标签的排序,将这三个组件加权求和得到最终的推荐结果。EnTagRec方法包括两部分,分别是基于Labeled LDA的贝叶斯推断组件以及基于频率的推断组件。前者使用Labeled LDA的方法对问题进行多分类处理,后者则首先借助于Stanford NLP工具对问题描述进行词性标注以去除无关词语,然后使用激活扩散算法(spreading activationalgorithm)寻找相关的tag。相对于TagCombine,该方法在准确性方面有着大幅度的提升。TagMulRec专注于解决大规模的标签推荐问题,借助于Lucene,该项技术首先构造问题描述中的词语-文档的索引,然后通过计算相似度的方法搜索出相似的问题,将这些问题的标签作为候选集合。对于该集合,TagMulRec提出了一种简单的标签排序算法来推荐合适的标签。
TagCombine技术由于在多标签排序时需要构建多个“一对多”的贝叶斯分类器,所以耗费大量时间。此外,其准确性相对于另外两项技术较低。EnTagRec技术受限于数据集的大小。原因在于其使用的Labeled LDA以及基于频率的推断方法复杂度高,训练所需要的时间随着数据集的大小急剧增加,因此不适用于百万级甚至几十万级的数据量的训练,这极大地限制了其应用范围,尤其是Stack Overflow这种拥有海量软件问答资源的社区。TagMulRec技术的准确性不如EnTagRec,并且在推荐标签时需要实时搜索相似问题。在百万级的数据集上,即使依靠索引机制,其推荐所需要的时间也较长。
总体来说,现有技术进行标签推荐时考虑了文本的统计信息,如词频等等,忽略了问题本身包含的语义信息,从而导致推荐的准确性低,耗费时间长。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711042537.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:媒体干预下三分意见群体网络舆情传播模型
- 下一篇:一种餐厅用智能点菜系统