[发明专利]基于开源软件包依赖特征的标签推荐方法、装置及系统有效

申请号：	201911045711.X	申请日：	2019-10-30
公开（公告）号：	CN110795134B	公开（公告）日：	2021-10-15
发明（设计）人：	杨柳;王立;龙军;胡志刚;王延文	申请（专利权）人：	中南大学;长沙数达智能科技有限公司
主分类号：	G06F8/70	分类号：	G06F8/70;G06F16/33;G06F16/35
代理公司：	长沙朕扬知识产权代理事务所(普通合伙) 43213	代理人：	何湘玲
地址：	410083 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于软件包依赖特征标签推荐方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于开源软件包依赖特征的标签推荐方法，其特征在于，包括以下步骤：

从软件的README描述文本中提取长度固定的主题分布特征向量；包括：用LDA模型从软件的README描述文本中抽取README软件描述的主题信息向量，LDA模型的输入是README描述文本和给定的主题数目，LDA模型的输出是每个README文档的主题分布特征向量；

提取软件依赖包的标签信息，并输出为长度固定的标签独热向量；包括：将开源软件的依赖包的标签作为软件的一部分描述特征，利用独热编码对依赖包的标签进行编码得到标签独热编码，将软件的依赖特征表示为一个向量[t1, t2, t3…,tn]，其中向量中的每一位代表一个标签；对于一个开源软件，重复以上步骤，得出所述开源软件的依赖包及各个依赖包的标签独热编码，对标签独热编码进行按位或运算，输出软件的依赖包的所有标签独热向量；

将主题分布特征向量和标签独热向量拼接组合成开源软件的特征向量，利用神经网络对特征的整合能力，将所述开源软件的特征向量作为输入特征，建立基于神经网络的标签预测模型，输出预测的软件标签分布分数；

根据所述软件标签及其对应的软件标签分布分数，通过机器学习方法，按照软件标签分布分数的数值大小将软件标签降序排列后，对开源软件进行标签推荐或对开源软件自动加标签。

2.根据权利要求1所述的基于开源软件包依赖特征的标签推荐方法，其特征在于，利用独热编码对依赖包的标签进行编码时，名称相同但是包管理器不同的标签，视为不同的标签，分别分配独热编码中不同的位。

3.根据权利要求1所述的基于开源软件包依赖特征的标签推荐方法，其特征在于，所述开源软件的特征向量中还包括，编程语言特征向量，所述编程语言特征为，开源软件的编程语言比例的特征向量[lang1,lang2…langQ]，其中每一项代表当前软件中该编程语言行数所占的比例。

4.根据权利要求3所述的基于开源软件包依赖特征的标签推荐方法，其特征在于，在拼接组合成开源软件的特征向量时，将主题分布特征向量[topic1,topic2…topicN]、标签独热向量[tag1,tag2,…tagM]以及编程语言特征向量[lang1,lang2…langQ]三者进行拼接组合形成一个一维向量[topic1,topic2…topicN,tag1,tag2,…tagM,lang1,lang2…langQ]，作为输入，构建全连接神经网络作为标签预测模型；标签预测模型的输出为预测的软件标签分布分数，所述标签预测模型训练的目标是最小化代价，其中，代价是一个损失函数，由两部分组成：其中一部分是推荐的标签与实际标签的偏差值；另一部分是正则项，用于限制模型的复杂度。

5.根据权利要求1至4中任一项所述的基于开源软件包依赖特征的标签推荐方法，其特征在于，所述软件依赖包的标签信息，通过以下步骤得到：

从软件项目的文件中获取依赖配置文件；构建依赖配置文件解析器解析依赖配置文件，获得软件项目依赖的包，从包托管服务网站获取依赖包的标签信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学;长沙数达智能科技有限公司，未经中南大学;长沙数达智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911045711.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于开源软件包依赖特征的标签推荐方法、装置及系统有效

专利文献下载