[发明专利]基于后缀树的代码文件克隆检测方法有效
申请号: | 201710140414.8 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106990956B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 罗峋;饶飞 | 申请(专利权)人: | 苏州棱镜七彩信息科技有限公司 |
主分类号: | G06F8/75 | 分类号: | G06F8/75 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 刘洪勋 |
地址: | 215000 江苏省苏州市工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于后缀树的代码文件克隆检测方法,对工程项目文件构造后缀树,在线性时间内实现代码文件克隆检测。LP检测方案及算法是以计算机软件源代码文件内容为粒度,通过对代码文件进行词法分析过滤,并MD5哈希得到指纹值,构造指纹建立指纹库。指纹库保存在MySQL数据库中,以指纹所在的开源项目id作为索引。可以直接提取后缀树中被标记为克隆结果的节点,将这些节点直接保存到克隆结果数据表中。由此,能在线性时间内检测出克隆的代码文件,比直接按照指纹值进行检测有更高效率,实现海量检测。 | ||
搜索关键词: | 基于 后缀 代码 文件 克隆 检测 方法 | ||
【主权项】:
基于后缀树的代码文件克隆检测方法,其特征在于:对工程项目文件构造后缀树,在线性时间内实现代码文件克隆检测,其包括以下步骤:步骤一,构造开源项目指纹库,采用的后缀树为Ukkonen算法,步骤二,对代码文件克隆进行检测,若从指纹库中直接检索相同的文件指纹,整个检测实现的算法复杂度为O(mn),m为待检测项目的文件指纹数,n是指纹库的指纹数;以后缀树方法为基础,完成在线性时间内检测相同代码文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州棱镜七彩信息科技有限公司,未经苏州棱镜七彩信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710140414.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种对应用程序进行打点的方法和系统
- 下一篇:一种窗口切换方法及装置