[发明专利]恶意程序特征提取方法和系统在审
申请号: | 201611202714.6 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106599681A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 崔宝江;曹梦晨;赵晶玲 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F21/53 | 分类号: | G06F21/53;G06F21/56 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 马维丽 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意程序 特征 提取 方法 系统 | ||
技术领域
本发明涉及恶意程序识别技术领域,尤其是涉及恶意程序特征提取方法和系统。
背景技术
传统的应用软件恶意行为检测技术,主要包括程序恶意行为检测、文件特征和行为特征比对等方法。目前主流的恶意程序识别算法,主要是提取恶意程序的行为粒度特征,仅部分恶意程序识别算法考虑了汇编指令离散特征的提取。据统计,系统函数调用序列用到的指令频度仅占二进制指令总数的0.05%,仅提取行为特征会损失细粒度的指令信息和语义信息,无法进行深度识别和分类,使得对恶意程序识别的准确度较低。
发明内容
有鉴于此,本发明的目的在于提供恶意程序特征提取方法和系统,可以实现对恶意程序更深度的特征提取,提高了恶意程序识别的准确度和精度。
第一方面,本发明实施例提供了一种恶意程序特征提取方法,包括:
利用静态分析技术,通过编写IDA python脚本,利用IDA命令行参数自动载入并执行被测目标,记录所述被测目标的静态信息;
在沙箱中运行所述被测目标,监控所述被测目标的调用函数并进行拦截,对所述调用函数进行处理,得到行为信息;
在所述沙箱的作用下,利用二进制动态插装技术对所述被测目标进行动态二进制插装,对被测目标的函数进行解析,获取解析信息,动态执行所述被测目标,根据所述解析信息获取控制流信息;
获取所述被测目标的当前动态执行基本块信息,并按照执行顺序给基本块设置编号,记录所述基本块的调用编号序列以及每个所述基本块对应的相关信息,用于离线重放指令流执行快照,从而得到汇编指令流快照信息;
对所述静态信息、所述控制流信息、所述汇编指令流快照信息和所述行为信息进行特征提取,得到多维特征信息。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述多维特征信息包括汇编指令级特征,所述汇编指令级特征包括指令统计特征、循环嵌套特征和数据依赖特征,所述对所述静态信息、所述控制流信息、所述汇编指令流快照信息和所述行为信息进行特征提取,得到多维特征信息包括:
读取所述汇编指令流快照信息中的一条汇编指令字符串,提取对应的操作码信息和操作数信息,记录操作码、操作码类型、操作数和指令地址;
将所述操作码和所述操作码类型对应的频度特征值加1,得到操作码频度特征和操作码类型频度特征;
提取所述操作数中的常量,得到指令常量特征;
判断所述操作码类型是否为控制跳转类,如果所述操作码类型是控制跳转类,则判断所述指令地址是否第一次出现,如果所述指令地址是第一次出现,则将选择结构特征值加1,得到选择结构特征;
判断所述汇编指令字符串是否读取完毕,如果读取完毕,则输出所述操作码频度特征、所述操作码类型频度特征、所述指令常量特征和所述选择结构特征,作为所述指令统计特征。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述静态信息、所述控制流信息、所述汇编指令流快照信息和所述行为信息进行特征提取,得到多维特征信息还包括:
读取所述汇编指令流快照信息中的指令流序列;
将所述指令流序列转化为基本块序列,利用后向搜索算法,在找到所述基本块序列的一层循环时,递归搜索所述循环内的其他循环结构,得到每层循环结构数量,作为循环嵌套特征。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述对所述静态信息、所述控制流信息、所述汇编指令流快照信息和所述行为信息进行特征提取,得到多维特征信息还包括:
读取所述汇编指令流快照信息中的一条汇编指令字符串和其上下文信息,得到源操作数信息和目的操作数信息;
判断源操作数和目的操作数之间是否存在数据传播操作,如果存在,则判断所述源操作数是否为污点数据,如果所述源操作数是所述污点数据,则进行污点传播标记,得到第一污点数据列表;
如果所述源操作数不是所述污点数据,则判断所述目的操作数是否为所述污点数据,如果所述目的操作数是所述污点数据,则进行污点消除标记,得到第二污点数据列表;
判断所述汇编指令字符串和其上下文信息是否分析完毕,如果分析完毕,则利用变量规约和来源识别方法对所述第一污点数据列表或所述第二污点数据列表进行归纳整合,提取函数数据依赖的统计特征集合,作为所述数据依赖特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611202714.6/2.html,转载请声明来源钻瓜专利网。