[发明专利]基于文件指令频度的计算机恶意程序分类系统及分类方法有效

专利信息
申请号: 200910040996.8 申请日: 2009-07-10
公开(公告)号: CN101604363A 公开(公告)日: 2009-12-16
发明(设计)人: 叶艳芳;万里;韩智雪;陈勇 申请(专利权)人: 珠海金山软件股份有限公司
主分类号: G06F21/00 分类号: G06F21/00;G06F17/30
代理公司: 广州新诺专利商标事务所有限公司 代理人: 杨焕军
地址: 519015广东省珠海市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文件 指令 频度 计算机 恶意程序 分类 系统 方法
【权利要求书】:

1.一种基于文件指令频度的计算机恶意程序分类系统,

其特征在于,包括

指令频度特征提取模块,其首先解析恶意程序代码的所有指令,并通 过计算每个指令在恶意程序样本中所出现的频率TF与逆向样本频率 IDF,对恶意程序样本集中出现的指令进行加权,从而构造指令频度 向量来表征恶意程序样本,并存储于恶意程序特征库中;其中,

指令频率TF是某一个给定的指令在该样本中出现的频率,对于 第j个样本中的指令ti,其指令频率值为TFi,j,其TFi,j值定义如下:

TFi,j=ni,jΣknk,j]]>——公式(1)

其中,ni,j是该指令ti在样本j中出现的次数,而分母则是在样本j 中所有指令出现的次数之和;

逆向样本频率IDF是一个指令普遍重要性的度量,一个指令ti的 IDF值定义如下:

IDFi=log|D||{d:tid}|]]>——公式(2)

其中,|D|表示恶意程序样本库中的样本总数,|{d:ti∈d}|表示包 含指令ti的恶意程序样本个数;

对恶意程序样本集中出现的指令进行加权,采用公式(1)指令频 率TFi,j与公式(2)逆向样本频率IDFi的乘积来对样本j中的第i个 指令ti进行加权得到TFIDFi,j,即:

TFIDFi,j=TFi,j*IDFi——公式(3)

其中,IDFi,代表第i个指令ti的逆向样本频率;

恶意程序特征库,其用于存储以指令频度向量来表征的所有恶意程序 样本;

样本差异度度量模块,其采用Cosine余弦度量方法,通过计算两个 样本指令频度向量之间夹角来衡量样本之间的差异度;其中,

两个样本xi和xj的Cosine距离Sij定义如下:

Sij=xiTxj|xi||xj|]]>——公式(4)

其中,分子表示两个样本特征向量的内积,分母表示两个样本特征向 量长度的乘积;

恶意程序样本家族划分模块,其将恶意程序特征库中所有N个恶意程 序样本从分成N个家族开始,逐次分成N-1个家族、N-2个家族,依 次类推,直至最后将所有N个恶意程序样本分成一个家族或者直到分 成预先设定好的家族数;具体做法如下:

设需要对第K-1层划分家族,则以上一层产生的K个家族为基础, 根据公式(4)的距离度量方法选择最相似的两个家族合并成一个新 家族,并重新计算合并后新家族的中心点,然后利用下述K-means的 全局优化迭代算法进行迭代,直至所有家族的中心点不再变化,最终 将所有恶意程序样本划分为合理的K-1个家族;K-means的全局优 化迭代算法如下:

I)按照该K-1层初始的K-1个中心点,将非中心点的样本点根 据公式(4)的Cosine距离度量方法计算该样本点与这K-1个中心点 的距离,将每个非中心点的样本点重新归类到与其最近的家族;

II)根据I)划分的结果更新所有家族的中心:家族i的中心点 为ci,其中i=1…k-1,其中其中vt代表家族i的 第t个样本,ni表示该家族i的样本个数,表示样本vt与同 家族所有样本的距离和;

III)检查即求的值,若值为0,则本次迭代与上一次 迭代所有家族的中心点未发生变化,迭代终止;否则,转步骤I)~ 步骤II),其中ci,c′i分别为家族i更新前后的中心点; 聚类质量评估模块,其对恶意程序样本家族划分模块每层分家族的结 果采用FS指标值进行有效性度量,并选择最小的FS指标值,将其对 应的划分结果作为最终结果;其中,

FS=Σi=1cΣk=1nukim(||xk-vi||2-||vi-v||2)]]>——公式(5)

其中,n表示恶意程序样本库的样本个数,c表示分成的类数,vi表示第i家族的中心点,家族的中心点是指距离本家族中所有样本的 距离之和最小的样本点,是恶意程序样本库中全体样本的中心点, 即距离全局所有样本的距离之和最小的样本点;||xk-vi||表示第i家 族中的样本点xk与该家族中心点vi的距离,表示第i家族的中 心点到全局中心点的距离,是样本隶属度矩阵:若样本xk属于第 i家族,则矩阵中该xk值为1;否则,值为0。

2.一种使用权利要求1所述基于文件指令频度的计算机恶意程序分 类系统进行分类的方法,其特征在于,包括如下过程

第一、指令频度特征提取步骤,指令频度特征提取模块首先解析恶意 程序代码的所有指令,并统计每个指令在恶意程序样本中所出现的频 度,采用指令在恶意程序样本中出现的频率TF与逆向样本频率IDF 对恶意程序样本集中出现的指令进行加权,从而构造指令频度向量来 表征恶意程序样本;其中,

指令频率TF是某一个给定的指令在该样本中出现的频率,对于 第j个样本中的指令ti,其指令频率值为TFi,j,其TFi,j值定义如下:

TFi,j=ni,jΣknk,j]]>——公式(1)

其中,ni,j是该指令ti在样本j中出现的次数,而分母则是在样本j 中所有指令出现的次数之和;

逆向样本频率IDF是一个指令普遍重要性的度量,一个指令ti的 IDF值定义如下:

IDFi=log|D||{d:tid}|]]>——公式(2)

其中,|D|表示恶意程序样本库中的样本总数,|{d:ti∈d}|表示包 含指令ti的恶意程序样本个数;

对恶意程序样本集中出现的指令进行加权,采用公式(1)指令频 率TFi,j与公式(2)逆向样本频率IDFi的乘积来对样本j中的第i个 指令ti进行加权得到TFIDFi,j,即:

TFIDFi,j=TFi,j*IDFi——公式(3)

其中,IDFi,代表i第个指令ti的逆向样本频率;

第二,恶意程序特征库生成步骤,将指令频度特征提取步骤中得到以 指令频度向量来表征的所有恶意程序样本存储于恶意程序特征库中;

第三、样本差异度度量步骤,

样本差异度度量模块采用Cosine余弦度量方法,通过计算两个样本 指令频度向量之间夹角来衡量样本之间的差异度;其中,

两个样本xi和xj的Cosine距离Sij定义如下:

Sij=xiTxj|xi||xj|]]>——公式(4)

其中,分子表示两个样本特征向量的内积,分母表示两个样本特征向 量长度的乘积;

第四、恶意程序样本家族划分步骤,恶意程序样本家族划分模块将恶 意程序特征库中所有N个恶意程序样本从分成N个家族开始,逐次分 成N-1个家族、N-2个家族,依次类推,直至最后将所有N个恶意程 序样本分成一个家族或者直到分成预先设定好的家族数;具体做法如 下:

设需要对第K-1层划分家族,则以上一层产生的K个家族为基础, 根据公式(4)的距离度量方法选择最相似的两个家族合并成一个新 家族,并重新计算合并后新家族的中心点,然后利用下述K-means的 全局优化迭代算法进行迭代,直至所有家族的中心点不再变化,最终 将所有恶意程序样本划分为合理的K-1个家族;K-means的全局优 化迭代算法如下:

I)按照该K-1层初始的K-1个中心点,将非中心点的样本点根 据公式(4)的Cosine距离度量方法计算该样本点与这K-1个中心点 的距离,将每个非中心点的样本点重新归类到与其最近的家族;

II)根据I)划分的结果更新所有家族的中心:家族i的中心点 为ci,其中i=1…k-1,其中其中vt代表家族 i的第t个样本,ni表示该家族i的样本个数,表示样本vt与 同家族所有样本的距离和;

III)检查即求的值,若值为0,则本次迭代与上一次 迭代所有家族的中心点未发生变化,迭代终止;否则,转步骤I)~ 步骤II),其中ci,c′i分别为家族i更新前后的中心点;

第五,聚类质量评估步骤,聚类质量评估模块对恶意程序样本家族划 分步骤每层分家族的结果采用FS指标值进行有效性度量;选择所有 FS指标值中最小值,该最小FS指标值所对应的分家族结果即为最后 的分家族结果;其中,

FS=Σi=1cΣk=1nukim(||xk-vi||2-||vi-v||2)]]>——公式(5)

其中,n表示恶意程序样本库的样本个数,c表示分成的类数,vi表 示第i家族的中心点,家族的中心点是指距离本家族中所有样本的距 离之和最小的样本点,是恶意程序样本库中全体样本的中心点,即 距离全局所有样本的距离之和最小的样本点;||xk-vi||表示第i家族 中的样本点xk与该家族中心点vX的距离,表示第i家族的中心 点到全局中心点的距离,是样本隶属度矩阵:若样本xk属于第i 家族,则矩阵中该xk值为1;否则,值为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山软件股份有限公司,未经珠海金山软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910040996.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top