[发明专利]恶意文件识别方法、装置及存储介质有效
申请号: | 201210213078.2 | 申请日: | 2012-06-26 |
公开(公告)号: | CN102737186A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 崔精兵;杨宜;于涛;白子潘;吴家旭 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F21/00 | 分类号: | G06F21/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 文件 识别 方法 装置 存储 介质 | ||
1.一种恶意文件识别方法,其特征在于,包括以下步骤:
采用预定的恶意文件和正常文件组成的学习集生成机器学习模型;
读取学习集以外的待检测文件;
将所述待检测文件转化成向量;
通过所述机器学习模型对转化成向量的待检测文件进行恶意文件识别。
2.根据权利要求1所述的方法,其特征在于,所述采用预定的恶意文件和正常文件组成的学习集生成机器学习模型的步骤包括:
将所述学习集中的恶意文件和正常文件分别转化成向量;
对所述学习集中恶意文件和正常文件的向量进行维度合并和筛选;
通过分类器对合并和筛选后的向量进行学习,生成机器学习模型。
3.根据权利要求2所述的方法,其特征在于,设定所述学习集中的所有恶意文件的向量为黑向量集,所有正常文件的向量为白向量集,所述对学习集中恶意文件和正常文件的向量进行维度合并和筛选的步骤包括:
从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;以此循环上述三个步骤,直至所述黑向量集和白向量集中所有的向量处理完毕。
4.根据权利要求3所述的方法,其特征在于,所述对学习集中恶意文件和正常文件的向量进行维度合并和筛选的步骤进一步还包括:
当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度;
将所述黑向量集和白向量集中的所有向量转化成K维向量。
5.根据权利要求1、2、3或4所述的方法,其特征在于,所述通过机器学习模型对转化成向量的待检测文件进行恶意文件识别的步骤包括:
对转化成向量后的待检测文件通过机器学习模型获取计算结果;
根据计算结果输出待检测文件中的恶意文件和正常文件。
6.根据权利要求5所述的方法,其特征在于,所述预定的恶意文件和正常文件是指预先收集的已知的恶意文件和正常文件。
7.一种恶意文件识别装置,其特征在于,包括:
模型生成模块,用于采用预定的恶意文件和正常文件组成的学习集生成机器学习模型;
读取模块,用于读取学习集以外的待检测文件;
向量转化模块,用于将所述待检测文件转化成向量;
识别模块,用于通过所述机器学习模型对转化成向量的待检测文件进行恶意文件识别。
8.根据权利要求7所述的装置,其特征在于,所述模型生成模块包括:
向量转化单元,用于将所述学习集中的恶意文件和正常文件分别转化成向量;
合并及筛选单元,用于对所述学习集中恶意文件和正常文件的向量进行维度合并和筛选;
生成单元,用于通过分类器对合并和筛选后的向量进行学习,生成机器学习模型。
9.根据权利要求8所述的装置,其特征在于,设定所述学习集中的所有恶意文件的向量为黑向量集,所有正常文件的向量为白向量集,所述合并及筛选单元包括:
第一提取子单元,用于从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
筛选子单元,用于将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
合并子单元,用于将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;
过滤子单元,用于当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
第二提取子单元,用于对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度;
转化子单元,用于将所述黑向量集和白向量集中的所有向量转化成K维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210213078.2/1.html,转载请声明来源钻瓜专利网。