[发明专利]基于代码切片的家族判定方法、系统及存储介质有效
| 申请号: | 201711482612.9 | 申请日: | 2017-12-29 |
| 公开(公告)号: | CN108073815B | 公开(公告)日: | 2022-02-15 |
| 发明(设计)人: | 黄磊;赵梓旭;童志明;何公道 | 申请(专利权)人: | 安天科技集团股份有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150028 黑龙江省哈尔滨市高新技术产*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 代码 切片 家族 判定 方法 系统 存储 介质 | ||
本发明提出一种基于代码切片的家族判定方法、系统及存储介质,所述方法包括,获取待检测文件,并判断文件格式;根据文件格式,按照最小功能的结构化数据块对待检测文件进行文件切片;分别计算各切片的模糊哈希;利用相似度计算方法,将各切片的模糊哈希与恶意代码切片特征库进行关联分析,得到与待检测文件相似的已知样本;确定关联分析后相似度最高的已知样本;则所述待检测文件与所述相似度最高的已知样本为同一恶意代码家族。本发明不需要了解恶意代码特性及特征码额提取,仅通过了解文件结构,即可利用相似度判定恶意代码的家族。
技术领域
本发明涉及网络安全技术领域,特别涉及一种基于代码切片的家族判定方法、系统及存储介质。
背景技术
目前对恶意代码的家族判定,主要是基于提取的恶意代码特征向量,利用聚类、分类的方法进行向量的相似性判断,提取的向量主要是基于恶意代码静动态行为进行提取,包括代码结构,如PE节名称、PE导入导出表函数名等、代码属性,如编译器名称、壳名称等、动态行为如进程操作、网络操作、文件操作等,通过对向量进行抽象化数值化后利用聚类和分类的方法家族判定。
对于不同的文件格式的恶意代码,提取的特征类型、特征个数不同。导致对于每类文件格式的恶意代码都需要建立不同的特征抽象方法、家族判定方法,无法建立统一的特征抽象、家族判定模型来对所有文件类型的恶意代码进行家族判定。
发明内容
为解决上述技术问题,本发明提出了一种基于代码切片的家族判定方法、系统及存储介质,能够对任何格式的文件,在不需要获取特征的情况下,进行家族判定。
本发明通过如下方法实现:
一种基于代码切片的家族判定方法,包括:
获取待检测文件,并判断文件格式;
根据文件格式,按照最小功能的结构化数据块对待检测文件进行文件切片;
分别计算各切片的模糊哈希;
利用相似度计算方法,将各切片的模糊哈希与恶意代码切片特征库进行关联分析,得到与待检测文件相似的已知样本;
确定关联分析后相似度最高的已知样本;
则所述待检测文件与所述相似度最高的已知样本为同一恶意代码家族。
所述的方法中,所述获取待检测文件,并判断文件格式,具体为:获取待检测文件,读取文件内容及大小到内存中,对内存中的内容进行格式识别,确定文件格式。
所述的方法中,所述根据文件格式,按照最小功能的结构化数据块对待检测文件进行文件切片,具体为:根据文件格式,按照文件结构进行全文遍历,对遍历的每个具有最小功能的结构化数据块进行切片操作,且切片的大小为结构化数据块所定义的长度。
所述的方法中,所述恶意代码切片特征库中存储的为:已知家族的每个恶意代码的切片数据块名称、各切片数据块对应的模糊哈希及家族名称。
所述的方法中,所述利用相似度计算方法,将各切片的模糊哈希与恶意代码切片特征库进行关联分析,具体为:计算待检测恶意代码与恶意代码切片特征库中,相同切片数据块名称切片的模糊哈希的相似度,再根据各切片的模糊哈希相似度,计算文件综合相似度,若文件综合相似度超过第一阈值,则待检测文件与对应已知样本相似。
所述的方法中,根据各切片的模糊哈希相似度,计算文件综合相似度,具体为:计算各切片的模糊哈希相似度超过第二阈值的数量与待检测文件切片总数的比值,即为文件综合相似度。
本发明还提出一种基于代码切片的家族判定系统,包括:
文件获取模块,获取待检测文件,并判断文件格式;
切片模块,根据文件格式,按照最小功能的结构化数据块对待检测文件进行文件切片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安天科技集团股份有限公司,未经安天科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711482612.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于静态结构化脱壳参数的脱壳方法、系统及存储介质
- 下一篇:信息处理装置





