[发明专利]一种基于用户评论和开发者智慧的App源代码链接方法在审
申请号: | 202210393040.1 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114741088A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 冯志勇;蒋逸文 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F8/54 | 分类号: | G06F8/54;G06F8/41;G06F16/951;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王利文 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 评论 开发者 智慧 app 源代码 链接 方法 | ||
1.一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:包括以下步骤:
步骤1、爬取数据信息,并对数据信息进行预处理;
步骤2、使用BERT模型对步骤1中预处理后的数据进行意图分类;
步骤3、对步骤2预处理后数据中上个版本意图分类后的数据提取价值评论;
步骤4、使用LDA对步骤3中的价值评论和步骤2预处理后数据中当前版本意图分类后的数据聚类主题;
步骤5、使用Issue数据中的文本对步骤4中的聚类主题进行语义丰富,使用Commit数据中的文本对源代码组件进行语义丰富;
步骤6、通过相似度计算,计算步骤5中语义丰富后的聚类主题和源代码组件之间的相似度,并通过潜在的源代码推荐算法进行源代码的链接。
2.根据权利要求1所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述步骤1中爬取数据信息包括:从Fdroid开源平台中爬取App的数据信息;从Google Play中爬取用户评论信息;从GitHub中爬取Issue数据和Commit数据,并将爬取到的数据信息存入到数据库中。
3.根据权利要求2所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述从Fdroid开源平台中爬取App的数据信息包括APP的概括描述、App的详细描述、App的GitHub地址和App的所属类别;
从Google Play中爬取用户评论信息包括评论所属APP、评论的点赞数、评论对APP的打分、评论的时间、评论的用户和评论的内容;
从GitHub中爬取的Issue数据包括Issue的GitHub地址、Issue的标题、Issue的状态、Issue的评论内容和Issue的记录时间;
从GitHub中爬取的Commit数据包括Commit的GitHub地址、Commit的提交说明、Commit的描述、Commit的提交者和Commit的记录时间。
4.根据权利要求1所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述步骤1中预处理的具体实现方法为:通过NLTK技术的非英文过滤、去停用词、词性标注、单词纠正、词形还原和短文本移除对爬取的数据信息进行预处理。
5.根据权利要求1所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述步骤2的的具体实现方法为:对步骤1预处理后的数据中的用户评论加上一个CLS标记符和SEP标记符,经过Embedding过程后得到预训练语言模型BERT的输入,调用预训练语言模型BERT,选取其输出中的CLS处特征向量,在预训练语言模型BERT前馈神经网络和softmax函数构成的分类层中进行分类,并返回用户评论所属各个类别的概率情况,选取概率值最大的选项作为其意图分类的结果,所述意图分类包括新功能请求、问题发现、信息提示、信息帮助和其他。
6.根据权利要求1所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述步骤3的具体实现方法为:使用Sentence-BERT模型将步骤2预处理后数据中上个版本分类后的用户评论和Issue数据中的文本句向量化,然后通过余弦相似度来计算两者的相似度情况,提取价值评论;随着用户评论和Issue数据中的文本相似度阈值的逐步升高,与Issue数据中的文本产生链接对的用户评论数量逐步减少,同时价值词的数量逐步减少;在计算过程中比对不同相似度阈值下的单位价值词减少而变化的用户评论数量,动态选择最优的相似度阈值。
7.根据权利要求1所述的一种基于用户评论和开发者智慧的App源代码链接方法,其特征在于:所述步骤4的具体实现方法为:使用LDA对步骤3中的价值评论和步骤2预处理后数据中当前版本意图分类后的数据聚类主题,并结合PyLDAvis可视化和主题相关性指标来选择LDA的最优聚类主题数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210393040.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桥梁运营期间的基础加固施工方法
- 下一篇:一种踢脚线