[发明专利]基于代码异味的软件重构预测方法在审

申请号：	202111468006.8	申请日：	2021-12-03
公开（公告）号：	CN114138328A	公开（公告）日：	2022-03-04
发明（设计）人：	俞东进;翁乐辉;陈洁;陈信;陈宇廷;叶佳萍	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F8/72	分类号：	G06F8/72
代理公司：	暂无信息	代理人：	暂无信息
地址：	310018 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于代码异味软件预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于代码异味的软件重构预测方法，其特征在于包括以下步骤：

步骤一：给定待分析系统中m*n个源代码文件版本集合F＝(F_1，1，F_1，2，...，F_i，j，...，F_m，n)，其中F_i，j表示源代码文件F_i的第j个版本，利用代码解析工具解析每一个源代码文件，将每一个源代码文件版本F_i，j的结构与异味信息度量表示为S_i，j＝className，classVersion，structure，hasSmell的形式，i＝1，2，...，m，j＝1，2，...，n，其中className表示源代码文件版本F_i，j的类名，设一个源代码文件包含一个类；classVersion表示源代码文件版本F_i，j在项目历史中的版本号，structure表示源代码文件版本F_i，j的结构特征集合W，hasSmell表示源代码文件版本F_i，j中是否存在某种代码异味，1表示存在异味，0则表示不存在；

特征集合W＝w_LOC，w_NOA，w_CBO，w_MPC，w_TCC，w_McCabe，w_WMC，其中w_LOC表示该文件的代码行数，w_NOA表示该文件中属性的个数，w_CBO表示与该文件相耦合的目标类的数量，耦合即该文件中的方法调用了目标类的方法或变量；w_MPC表示该文件中的方法调用其他方法的个数，w_TCC表示通过访问相同的属性而直接发生联系的方法个数，w_McCabe表示该文件通过McCabe度量法计算得到的复杂度，w_WMC表示该文件中方法的圈复杂度的和；

步骤二：如果源代码文件版本F_i，j被识别为存在某种代码异味，判别是否具有这种代码异味的特征阈值集为T＝w₁|b₁，...，w_g|b_g，...，w_t|b_t，其中w_g为W中的一个特征，b_g为识别为这种代码异味的特征w_g对应的阈值，g＝1，2，...，t，通过以下公式计算得到异味强度：

其中，m(w_g)表示待分析系统中存在的、由于特征w_g引起某种代码异味的最大或最小值：当w_g超过b_g时引起某种代码异味的时候选用最大值，当w_g小于b_g时引起某种代码异味的时候选用最小值；

添加强度信息后源代码文件版本F_i，j的结构与异味信息度量表示为：

S′_i，j＝className，classVersion，structure，hasSmell，intensity；

步骤三：获取源代码文件历史信息度量：

设源代码文件F_i在某个历史版本p中引入了代码异味，源代码文件F_i当前版本为j，则源代码文件版本F_i，j中关于历史信息度量可以表示为：

H_i，j＝className，classVersion，diffDays，diffVersions，action

其中，diffDays表示版本p和j之间间隔的自然天数，diffVersions表示版本p和j之间间隔的版本数，action表示版本p和j之间文件F_i发生修改的次数；

步骤四：我们在源代码文件集合F中找到所有的代码异味消除的源代码文件版本，分成以下两类：

1)F_i，j的hasSmell＝1，而F_i，j+1的hasSmell＝0；

2)F_i，j的hasSmell＝1，且j是源代码文件F_i的最后一个版本；

根据1)和2)中的策略，在源代码文件集合F中获取到存在某种代码异味的所有的最后一个源代码文件版本F_i，j，组成代码异味消除的源代码文件集合，并通过过采样技术SMOTE将其进行扩充，形成ζ_P，即为数据集中的正样本，将源代码文件集合F中剩余的源代码文件版本作为数据集的负样本ζ_N，最后得到了完整的样本数据集：ζ＝ζ_P∪ζ_N，其中ζ_P中每一个源代码文件版本对应的重构标签值y为1，ζ_N中的每一个源代码文件版本对应的重构标签值y为0；

步骤五：使用特征递归消除技术、Random Forest Classifier和LGBM Classifier来保留最重要的z个特征，记为W^*＝(w₁，w₂，...，w_z)；经过特征选择之后的源代码文件版本F_i，j可以用(S^*_i，j，H^*_i，j)来表示，其中S^*_i，j表示保留的结构与异味信息度量，H^*_i，j表示保留的历史信息度量；

步骤六：将数据集中的一部分数据作为训练集ζ_train；

步骤七：对于每一个源代码文件版本的信息表示(S^*_i，j，H^*_i，j)，将S^*_i，j输入到LGBM中得到输出h₁，将H^*_i，j输入到Logistic Regression中得到输出h₂，最终模型的输出表示重构的预测概率其中a₁和a₂表示权重，且a₁+a₂＝1；

步骤八：使用交叉熵损失函数来计算重构标签值y和输出之间的损失，损失函数的定义如下：

其中d表示训练的样本数；

步骤九：利用训练集ζ_train来训练LGBM和Logistic Regression模型参数，直至达到最大迭代次数MaximumIter，获得训练之后最佳参数的LGBM和Logistic Regression模型；

步骤十：对于一个源代码文件，首先按步骤一、步骤二、步骤三，获取到文件与异味信息度量和历史信息度量，然后根据步骤五抽取出最佳的特征，将这些特征输入到步骤九获得的模型中，最终获得关于此文件是否需要进行重构的预测概率，如果概率大于等于0.5则说明要进行重构，小于0.5则说明不需要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111468006.8/1.html，转载请声明来源钻瓜专利网。

上一篇：基于深度学习的激光焊接焊缝特征点识别方法及装置
下一篇：一种基于化学沉附法的氧化锌压敏电阻制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于代码异味的软件重构预测方法在审

专利文献下载