[发明专利]基于哈希值的代码克隆检测方法、电子设备、存储介质在审
申请号: | 201811308117.0 | 申请日: | 2018-11-05 |
公开(公告)号: | CN109445844A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 陈秋远;杨朝晖;李善平 | 申请(专利权)人: | 浙江网新恒天软件有限公司 |
主分类号: | G06F8/75 | 分类号: | G06F8/75 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 胡拥军;糜婧 |
地址: | 310000 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 克隆检测 哈希 克隆 源代码 电子设备 聚类 行数 判定 标识符 读取 可读存储介质 存储介质 哈希算法 分组 代码库 代码行 复杂度 解析器 迁移性 两段 抽取 检测 语言 | ||
1.基于哈希值的代码克隆检测方法,其特征在于包括以下步骤:
代码预处理,读取源代码,通过解析器抽取所述源代码中的代码库,得到克隆检测对象;
克隆聚类,通过哈希算法对所述克隆检测对象进行处理,获得所述克隆检测对象对应的匿名哈希值,通过所述匿名哈希值进行聚类,获得若干代码克隆分组;
克隆比较,将所述代码克隆分组中的代码在组内两两进行比较,判断两段代码各自的行数或者有差异的代码行数是否小于阈值,是则判定为相似的代码克隆,否则判定不是代码克隆。
2.如权利要求1所述的基于哈希值的代码克隆检测方法,其特征在于:所述代码预处理步骤还包括对所述克隆检测对象进行噪音消除。
3.如权利要求2所述的基于哈希值的代码克隆检测方法,其特征在于:所述代码预处理步骤还包括对所述克隆检测对象中不同的编码格式进行统一。
4.如权利要求3所述的基于哈希值的代码克隆检测方法,其特征在于:所述代码预处理步骤还包括通过哈希算法对所述克隆检测对象进行处理,获取所述克隆检测对象对应的全文哈希值,将所述全文哈希值中相同值对应的代码合并为同一代码段。
5.如权利要求4所述的基于哈希值的代码克隆检测方法,其特征在于:所述代码预处理步骤中,所述哈希算法为SimHash算法;所述通过哈希算法对所述克隆检测对象进行处理具体为将所述克隆检测对象进行关键词抽取,得到若干关键词与权重对,计算每个所述关键词与权重对中关键词的哈希值,对哈希值与权重对进行位的纵向累加,得到所述全文哈希值。
6.如权利要求4所述的基于哈希值的代码克隆检测方法,其特征在于:所述代码预处理步骤还包括对所述克隆检测对象进行变量名替换。
7.如权利要求4所述的基于哈希值的代码克隆检测方法,其特征在于:所述克隆聚类步骤中,所述哈希算法为SimHash算法;所述通过哈希算法对所述克隆检测对象进行处理具体为对变量名替换后的克隆检测对象进行关键词抽取,得到若干关键词与权重对,计算每个所述关键词与权重对中关键词的哈希值,对哈希值与权重对进行位的纵向累加,得到所述匿名哈希值。
8.如权利要求7所述的基于哈希值的代码克隆检测方法,其特征在于:所述克隆聚类步骤中,将所述匿名哈希值中所有哈希值从高位到低位进行排列,将海明距离在聚类阈值内的代码片段分入同一组中,所述海明距离为将所述匿名哈希值中的两个哈希值进行异或,获得结果中所有1的和。
9.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-8任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-8任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江网新恒天软件有限公司,未经浙江网新恒天软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811308117.0/1.html,转载请声明来源钻瓜专利网。