[发明专利]基于开源软件包依赖特征的标签推荐方法、装置及系统有效
| 申请号: | 201911045711.X | 申请日: | 2019-10-30 |
| 公开(公告)号: | CN110795134B | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 杨柳;王立;龙军;胡志刚;王延文 | 申请(专利权)人: | 中南大学;长沙数达智能科技有限公司 |
| 主分类号: | G06F8/70 | 分类号: | G06F8/70;G06F16/33;G06F16/35 |
| 代理公司: | 长沙朕扬知识产权代理事务所(普通合伙) 43213 | 代理人: | 何湘玲 |
| 地址: | 410083 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 软件包 依赖 特征 标签 推荐 方法 装置 系统 | ||
1.一种基于开源软件包依赖特征的标签推荐方法,其特征在于,包括以下步骤:
从软件的README描述文本中提取长度固定的主题分布特征向量;包括:用LDA模型从软件的README描述文本中抽取README软件描述的主题信息向量,LDA模型的输入是README描述文本和给定的主题数目,LDA模型的输出是每个README文档的主题分布特征向量;
提取软件依赖包的标签信息,并输出为长度固定的标签独热向量;包括:将开源软件的依赖包的标签作为软件的一部分描述特征,利用独热编码对依赖包的标签进行编码得到标签独热编码,将软件的依赖特征表示为一个向量[
将主题分布特征向量和标签独热向量拼接组合成开源软件的特征向量,利用神经网络对特征的整合能力,将所述开源软件的特征向量作为输入特征,建立基于神经网络的标签预测模型,输出预测的软件标签分布分数;
根据所述软件标签及其对应的软件标签分布分数,通过机器学习方法,按照软件标签分布分数的数值大小将软件标签降序排列后,对开源软件进行标签推荐或对开源软件自动加标签。
2.根据权利要求1所述的基于开源软件包依赖特征的标签推荐方法,其特征在于,利用独热编码对依赖包的标签进行编码时,名称相同但是包管理器不同的标签,视为不同的标签,分别分配独热编码中不同的位。
3.根据权利要求1所述的基于开源软件包依赖特征的标签推荐方法,其特征在于,所述开源软件的特征向量中还包括,编程语言特征向量,所述编程语言特征为,开源软件的编程语言比例的特征向量[
4.根据权利要求3所述的基于开源软件包依赖特征的标签推荐方法,其特征在于,在拼接组合成开源软件的特征向量时,将主题分布特征向量[
5.根据权利要求1至4中任一项所述的基于开源软件包依赖特征的标签推荐方法,其特征在于,所述软件依赖包的标签信息,通过以下步骤得到:
从软件项目的文件中获取依赖配置文件;构建依赖配置文件解析器解析依赖配置文件,获得软件项目依赖的包,从包托管服务网站获取依赖包的标签信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学;长沙数达智能科技有限公司,未经中南大学;长沙数达智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911045711.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助应用自动保护方法及装置
- 下一篇:一种实现注解式配置的方法和装置





