[发明专利]一种基于文件知识图谱的开源软件社区专家推荐方法有效
申请号: | 201710343007.7 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107391542B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 宣琦;周鸣鸣;虞烨炜;傅晨波;陈晋音;吴哲夫 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文件 知识 图谱 软件 社区 专家 推荐 方法 | ||
一种基于文件知识图谱的开源软件社区专家推荐方法,包括以下步骤:1)针对开源软件社区中的某个项目,根据文件路径计算两两文件路径之间的相似度,构建项目文件关系网络;2)对项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征;3)将开发者本人的历史编辑文件特征,与其联系过的专家的历史编辑文件特征整合为该开发者的已知开发行为特征;4)根据开发者的历史已知特征,训练随机森林模型,用于推荐其开发过程中需要联系的专家。本发明将每个项目文件转化为各个知识图谱,通过开源软件社区开发者当前涉及到的这些文件的图谱信息,预测并推荐相应的专家。
技术领域
本发明涉及软件工程与推荐系统领域,特别是涉及一种基于文件知识图谱的开源软件社区专家推荐方法。
背景技术
目前,开源软件社区日益受到开发者的关注与参与,越来越多的优秀项目从这里诞生。它的核心思想是众人共同来完成项目,由于开发者可能身处于不同的地方,所以尽管这种全球化的分布式项目开发方式吸引了许多开发者加入,节约了人力成本,但由于项目成员之间的工作交流往往通过自主地电子通讯方式,受到时间与空间因素的影响,甚至制约了那些新加入的或不熟练的开发者尽快熟悉项目。有研究指出在开源软件项目中有4%至30%的开发者存在联系专家的困境。他们有时为了寻找与自己开发方向相类似的专家,浪费了太多时间,通常比那些不需要联系专家的开发者多花费12天来完成项目中的任务,严重影响了开发进度。为了克服开源软件社区开发者联系专家的不便性,给软件开发者推荐专家显得非常有必要。
传统的专家推荐系统,通过项目组的不同成员对项目文件的历史工作情况来评测成员之间的相似性,基于成员之间的相似性做出推荐;或者通过成员对不同项目文件的历史工作情况来评测项目文件之间的相似性,基于相似性的项目文件所附属的专家做出推荐。这类推荐方法计算复杂度高,结构比较单一,使用成本较高。由于在开源软件社区开发者寻找专家的行为,本身是一种基于当前项目任务为动机的过程,所以同一个开发者在处理不同项目文件时,可能需要寻找不同方面的专家,传统的专家推荐系统很难处理这类实时推荐问题。
发明内容
为了克服现有专家推荐系统的实时性较差、精准性较低、时间成本较高、开发效率较低的不足,本发明提供一种实时性良好、精准性较高、时间成本较低、开发效率较高的基于文件知识图谱的开源软件社区专家推荐方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于文件知识图谱的开源软件社区专家推荐方法,包括以下步骤:
S1:针对开源软件社区中的某个项目,根据文件路径计算两两文件路径之间的相似度,构建项目文件关系网络;
S2:对项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征;
S3:将开发者本人的历史编辑文件特征,与其联系过的专家的历史编辑文件特征整合为该开发者的已知开发行为特征;
S4:根据开发者的历史已知特征,训练随机森林模型,用于推荐其开发过程中需要联系的专家。
所述步骤S1中,计算两两文件路径之间的相似度,文件1与文件2在某个项目中的绝对路径分别为:f1,f2,则文件1与文件2的路径相似度为
其中StringComparison(f1,f2)为文件1与文件2的绝对路径中的相同部分个数;max(length(f1),length(f2))为文件1与文件2的绝对路径长度的最大值。
所述步骤S1中,构建项目文件关系网络:项目文件关系网络G(V,E,W),其中V表示文件作为网络节点,E表示两两文件的关系连边,W表示两两文件的路径相似度权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710343007.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实时数据合并方法和装置
- 下一篇:一种无线热点的类型识别方法和装置