[发明专利]一种文件的聚类方法和设备有效
| 申请号: | 201310055669.6 | 申请日: | 2013-02-21 |
| 公开(公告)号: | CN104008334B | 公开(公告)日: | 2017-12-01 |
| 发明(设计)人: | 杨宜;于涛;陶波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 唐华明 |
| 地址: | 518031 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文件 方法 设备 | ||
技术领域
本发明涉及信息处理技术领域,特别涉及文件的聚类方法和设备。
背景技术
随着互联网的发展,信息爆炸式地增长,其中,计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全,而大部分恶意程序的文件都是可移植可执行(Portable Executable,PE)格式的文件,这些PE文件虽然数量大,但是很多都具有家族特性。这样可以对PE文件先进行聚类(Cluster),即根据事先定义的度量将一些相似的对象组成群体,然后从聚类结果中发现新家族的PE文件,有利于病毒的分析和查杀。
目前,文件的聚类方法主要有两种,一种是传统的聚类方法,比如k均值聚类、层次聚类等,这种方法需要提取文件的特征,并通过对两个文件的特征进行相似性比较实现文件聚类;另一种是基于内容分割的分片哈希算法(Context Triggered Piecewise Hashing,CTPH),这种方法需要将文件进行分片,然后通过对两个文件的分片进行相似性的比较实现文件聚类。但是上述现有的文件聚类方法中相似性比较的计算量比较大,且比较复杂。
发明内容
本发明实施例提供文件的聚类方法和设备,简化文件聚类的复杂度。
本发明实施例提供一种文件的聚类方法,包括:
分别对待处理文件中的多个信息块的进行特征提取;
计算提取的所述多个信息块中各个信息块的特征的信息指纹;
根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
将信息指纹相同的待处理文件作为一个聚类输出。
本发明实施例提供一种文件的聚类设备,包括:
特征提取单元,用于分别对待处理文件中的多个信息块的进行特征提取;
第一指纹计算单元,用于计算提取的所述多个信息块中各个信息块的特征的信息指纹;
第二指纹计算单元,用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
聚类输出单元,用于将信息指纹相同的待处理文件作为一个聚类输出。
本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文件的聚类方法流程图;
图2是本发明实施例中PE文件包含的.text节中数据的示意图;
图3是本发明实施例提供的另一种文件的聚类方法流程图;
图4是本发明实施例中一种PE文件的聚类方法流程图;
图5是本发明实施例提供的一种文件的聚类设备的示意图;
图6是本发明实施例提供的一种文件的聚类设备的示意图;
图7是本发明实施例提供的一种文件的聚类设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文件的聚类方法,比如对PE等文件的聚类主要是计算机所执行的方法,流程图如图1所示,包括:
步骤101,分别对待处理文件中的多个信息块的进行特征提取。
可以理解,每个文件都可以划分为不同的信息块,对于PE文件来说,该PE文件可以用于不同的操作系统和体系结构中,且可以封装操作系统加载可执行程序代码时所必需的信息,包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等,而大部分恶意程序都是PE文件。PE文件可以分为不同的信息块,称为节(sections),比如.text节,.data节,.rsrc节,.reloc节等,每节中包含具有共同属性的数据,具体可以是数据0(00)到数据255(FF)之间的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310055669.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种肥料烘干冷却装置
- 下一篇:一种物料的干燥方法





