[发明专利]一种恶意文件识别方法及系统在审
申请号: | 202210181307.0 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114547614A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 王建磊;何华荣;黄杰;王志 | 申请(专利权)人: | 深圳市联软科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F8/53;G06N3/04 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 钟继莲 |
地址: | 518000 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 文件 识别 方法 系统 | ||
本发明提供了恶意文件识别方法及系统,方法包括:建立包含多个可执行文件的恶意代码样本库;对可执行文件进行反汇编,以得到多个功能块;每个功能块包括多个基本块;提取功能块中基本块之间的调用关系,根据调用关系对功能块中各个基本块的顺序进行重组,以得到重组功能块;利用预设的学习算法对重组功能块进行训练,得到识别模型;获取待识别文件,对待识别文件进行预处理,以得到预处理文件;利用识别模型对预处理文件进行识别。该恶意文件识别方法通过学习算法训练模型,能够自动提取可执行文件特征,克服了现有技术需要依赖手工提取可执行文件特征的缺陷,提高了识别效率,降低了识别时间。
技术领域
本发明属于网络安全技术领域,具体涉及一种恶意文件识别方法及系统。
背景技术
现有的恶意文件种类繁多,有些恶意文件是正常被感染所致;有些恶意文件独立存在系统中,例如可执行程序(.exe、.dll、.com、.scr)等对象;有些恶意文件隐藏在数据文件(.doc、.xls、.ppt、.pdf、.mp3、.avi等)中,比如宏病毒、Office文档等对象;有些恶意文件隐藏在脚本文件(.js、.vbs、.php、.pl等)里,比如脚本病毒;还有恶意文件是网页文件(.html、.htm、asp等),比如网页挂马。
目前,有些恶意文件识别方法是将识别对象与恶意代码特征(即识别标准)进行对比,从而来定位病毒或者程序代码;有些恶意文件识别方法是通过识别恶意行为来定位恶意文件;有些恶意文件识别方法采用特征值检测,特征值检测是反病毒软件鉴别特定计算机病毒的一种标志,通常是从病毒样本中提取的一段或多段字符串或二进制串,特征值检测技术的具体思路:获取样本-提取样本特征-更新病毒库-查杀病毒。
但是上述恶意文件识别方法都存在以下缺陷:A)只能检测已知恶意代码,容易被免杀绕过;B)加壳、混淆、变异等病毒的出现将导致识别更加困难;C)新病毒层出不穷,导致人工特征提取无法跟上新兴的恶意软件流。
发明内容
针对现有技术中的缺陷,本发明提供一种恶意文件识别方法及系统,能够对加壳、混淆、未知的恶意代码或者病毒进行识别。
第一方面,一种恶意文件识别方法,包括:
建立包含多个可执行文件的恶意代码样本库;
对可执行文件进行反汇编,以得到多个功能块;每个功能块包括多个基本块;
提取功能块中基本块之间的调用关系,根据调用关系对功能块中各个基本块的顺序进行重组,以得到重组功能块;
利用预设的学习算法对重组功能块进行训练,得到识别模型;
获取待识别文件,对待识别文件进行预处理,以得到预处理文件;
利用识别模型对预处理文件进行识别。
优选地,恶意代码样本库中可执行文件均设有标签信息;标签信息包括良性文件或恶性文件。
优选地,学习算法包括BiLSTM双向循环神经网络和自注意力机制。
优选地,在得到识别模型之后,还包括:
导出识别模型;
根据识别模型开发检测程序,将检测程序上传至云端;
终端设备从云端下载并安装检测程序,实现对终端设备中恶意文件的识别。
优选地,在得到识别模型之后,还包括:
当恶意代码样本库接收到新的可执行文件时,对新的可执行文件进行反汇编和重组,以得到重组功能块;利用学习算法对重组功能块进行训练,更新识别模型。
第二方面,一种恶意文件识别系统,包括识别单元,识别单元包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市联软科技股份有限公司,未经深圳市联软科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210181307.0/2.html,转载请声明来源钻瓜专利网。