[发明专利]基于中间表达的二进制代码开源成分识别方法及系统在审

专利信息
申请号: 202310301816.7 申请日: 2023-03-13
公开(公告)号: CN116432622A 公开(公告)日: 2023-07-14
发明(设计)人: 万振华;胡佳豪;蒋建春;程泽凯 申请(专利权)人: 深圳开源互联网安全技术有限公司;中国科学院软件研究所
主分类号: G06F40/194 分类号: G06F40/194;G06N3/0455;G06F8/41;G06F8/53
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 赵贯杰
地址: 518000 广东省深圳市龙华区民治*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 中间 表达 二进制 代码 成分 识别 方法 系统
【说明书】:

发明公开了一种基于中间表达的二进制代码开源成分识别方法及系统,其包括:将开源组件库中的开源组件的源代码转换为二进制文件,并抽取和存储转换过程中的中间表达式,以获得基础数据库;将待检测的二进制的目标文件反编译为中间表达式,以获得目标数据;通过第一神经网络模型分别对基础数据库中的各个数据以及目标数据进行转换处理,以获得基于高维空间向量表达的源代码向量和目标代码向量;分别计算目标代码向量与每一源代码向量的相似度,以获得相似度值;基于上述方法,通过中间表达式的转换,有效消除了二进制代码文件在进行开源成分检测过程中因编译配置带来的影响,从而提升检测结果的准确性和效率。

技术领域

本发明涉及软件的开源成分检测技术领域,尤其涉及一种基于中间表达的二进制代码开源成分识别方法及系统。

背景技术

开源运动推动了开源社区的发展,这些开源社区提供了大量的开源存储库,因此,基于开源组件的开发和代码重用大大提高了软件开发的效率,但是,由于开源组件的引入,这也会带来一些问题,如违反许可和安全漏洞等。

现如今大量的软件开发者出于各种原因的考虑,未公开其软件的源代码,这使得对软件中使用的第三方组件的识别工作带来不小的挑战。主要原因在于不同的软件的二进制文件可能通过各种不同的编译配置编译而来,包括不同的编译器、优化级别、指令架构等等。同一份源代码在通过不同的编译配置编译后产生的二进制文件往往存在较大的差异,难以很好的在二进制文件与源代码间进行匹配。

因此,需要对二进制代码开源成分检测技术进行改进。

发明内容

本发明的目的是提供一种基于中间表达的二进制代码开源成分识别方法及系统,以有效检测二进制软件代码与开源的源代码之间的相似性,并可消除因编译配置带来的影响。

为了实现上述目的,本发明公开了一种基于中间表达的二进制代码开源成分识别方法,其包括:

将开源组件库中的开源组件的源代码转换为二进制文件,并抽取和存储转换过程中的中间表达式,以获得基础数据库;

将待检测的二进制的目标文件反编译为中间表达式,以获得目标数据;

通过第一神经网络模型分别对所述基础数据库中的各个数据进行转换处理,以获得基于高维空间向量表达的源代码向量;同时,

通过所述第一神经网络模型对所述目标数据进行转换处理,以获得与所述源代码向量维度相同的目标代码向量;

分别计算所述目标代码向量与每一所述源代码向量的相似度,以获得相似度值。

较佳地,所述第一神经网络模型的生成方法包括:

提供一Bert预训练模型;

通过所述基础数据库中的数据对Bert预训练模型进行精调,以获得所述第一神经网络模型。

较佳地,采用第二神经网络模型计算目标代码向量与源代码向量的相似度。

较佳地,所述源代码向量的维度大于或等于1024。

本发明还公开一种基于中间表达的二进制代码开源成分识别系统,其包括:

第一转换模块,其用于将将开源组件库中的开源组件的源代码转换为二进制文件,并抽取和存储转换过程中的中间表达式,以获得基础数据库;

第二转换模块,其用于将待检测的二进制的目标文件反编译为中间表达式,以获得目标数据;

向量化表示模块,其用于通过第一神经网络模型分别对所述基础数据库中的各个数据和所述目标数据进行转换处理,以获得基于高维空间向量表达的源代码向量和目标代码向量;

相似度计算模块,其用于分别计算所述目标代码向量与每一所述源代码向量的相似度,以获得相似度值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳开源互联网安全技术有限公司;中国科学院软件研究所,未经深圳开源互联网安全技术有限公司;中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310301816.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top