[发明专利]一种基于代码特征的跨平台二进制代码匹配方法及系统在审

专利信息
申请号: 202310540859.0 申请日: 2023-05-15
公开(公告)号: CN116578979A 公开(公告)日: 2023-08-11
发明(设计)人: 朱辉;刘欣鑫 申请(专利权)人: 软安科技有限公司
主分类号: G06F21/56 分类号: G06F21/56;G06F21/14;G06F8/41;G06F40/216;G06F40/242;G06F18/243;G06F18/213;G06F18/214;G06F18/22
代理公司: 成都言成诺知识产权代理事务所(特殊普通合伙) 51314 代理人: 张川
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 代码 特征 平台 二进制 匹配 方法 系统
【权利要求书】:

1.一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述方法包括:

S1、从内存dump出data或rdata段的数据提取里面的常量字符串特征,并通过算法生成常量字符串的哈希特征值;

S2、依次提取语法/文本特征,提取代码的语义特征以及提取图同构的特征,将所有特征按照预定顺序进行首尾相接,拼接成高维的特征向量;

S3、通过随机森林算法对所有高维的特征向量进行分类实现压缩降维,使用分类器对降维后的特征向量进行多分类训练,得到训练好的分类器模型,通过该分类器模型对新的特征向量进行分类匹配,判断新的特征向量的二进制代码属于哪种加密或者签名校验。

2.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述提取语法/文本特征包括:

以指令的基础块为单元,去除该单元内所有二进制汇编指令的操作数只保留操作码,以此屏蔽不同的常数项和寄存器带来的文本差异;

对于每个操作码求出其tf-idf值,其值越高说明该指令在当前基础块内的特征越明显;

将所有操作码转换成字典,然后将当前基础块中所有操作码的tf-idf值按照该操作码在字典内的位置顺序排列,形成该基础块的N-hot特征向量。

3.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述提取代码的语义特征包括:在基础块的最后指令执行完毕后收集所有通用寄存器的值,并按照预定顺序将这些值进行排列,形成基础块输出值特征向量。

4.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述提取图同构的特征包括:

运行二进制代码文件筛选出没有被执行的所有基础块和二进制代码,通过静态分析的方式将没有被执行的基础块以及其之间的跳转指令进行空指令操作,并将没有被执行的二进制代码进行空指令操作;

在基础块最后指令执行结束时提取通用寄存器的值作为特征,并提取基础块指令条数、基础块的入度和基础块的出度作为特征;

判断跳转指令的跳转类型并提取作为特征,提取函数参数、函数返回值、函数调用的入度、函数调用的出度、函数代码指令条数、函数栈空间大小、函数局部变量个数和函数内部基础块个数作为特征;

将提取的所有特征按照预定顺序依次排列形成N维特征向量。

5.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述S3的步骤具体包括:

通过随机森林算法产生大量子树,每个子树抽取原特征向量特定数量的维度进行分类并以向量的形式输出分类结果,每个子树的高度为3,叶子节点数为8,即每个子树生成的向量为8维,设子树数量为L,原特征向量维度为N,N/L>8;

将随机森林每个子树运行结果的向量首尾拼接得到新的降维后的特征向量,使用分类器对生成的降维后的特征向量进行多分类训练,得到训练好的分类器模型,通过该分类器模型对新的特征向量进行分类匹配,判断新的特征向量的二进制代码属于哪种加密或者签名校验。

6.根据权利要求1-5中任意一项所述的一种基于代码特征的跨平台二进制代码匹配方法,其特征在于:所述方法还包括训练样本生成步骤,所述训练样本生成步骤包括:

将常见的加密和签名且未被混淆的二进制代码使用编译器通过交叉编译的方式编译成不同硬件平台、不同编译器、不同编译器版本、不同操作系统对应的二进制代码文件,以增加训练数据样本,并通过S1和S2步骤提取特征,并拼接成高维特征向量作为训练样本的特征向量对分类器进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于软安科技有限公司,未经软安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310540859.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top