[发明专利]一种恶意安装包的识别方法和装置有效
申请号: | 201711192496.7 | 申请日: | 2017-11-24 |
公开(公告)号: | CN108021806B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 郭祥;周楠;李强;王冬 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F21/53 | 分类号: | G06F21/53;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 安装 识别 方法 装置 | ||
1.一种恶意安装包的识别方法,其特征在于,包括:
获取待检测安装包经过沙箱处理后的特征序列;
从所述特征序列中提取符合预定文字提取规则的文字信息;
对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;
通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包;
所述待检测安装包在所述沙箱中模拟运行产生多次调用应用程序编程接口的行为;所述待检测安装包则对应多个调用行为特征,将多个所述调用行为特征按照调用的时间顺序进行排列,形成所述特征序列。
2.根据权利要求1所述的方法,其特征在于,所述神经网络识别模型的获取步骤包括:
获取训练安装包经过沙箱处理后的训练特征序列;
从所述训练特征序列中提取符合预定文字提取规则的训练文字信息;
对所述训练文字信息进行处理,得到训练输入数据;
将所述训练输入数据输入到神经网络进行处理,得到训练函数;
根据所述训练函数的各项数值对所述神经网络进行训练,获得神经网络识别模型。
3.根据权利要求2所述的方法,其特征在于,所述神经网络包括卷积神经网络和长短期记忆网络,将所述训练输入数据输入到神经网络进行处理,得到训练函数,具体包括:
将所述训练输入数据输入到卷积神经网络进行卷积处理,得到多维特征数据;
将所述多维特征数据输入到长短期记忆网络进行处理,获得训练函数;
根据所述训练函数的各项数值对所述神经网络进行训练,获得神经网络识别模型,具体包括:
根据所述训练函数的各项数值对所述卷积神经网络和所述长短期记忆网络进行训练,获得卷积神经网络模型和长短期记忆网络模型;
将所述卷积神经网络模型和长短期记忆网络模型进行组合得到神经网络识别模型。
4.根据权利要求3所述的方法,其特征在于,将所述训练输入数据输入到卷积神经网络进行卷积处理,得到多维特征数据,具体包括:
对所述训练文字信息进行分词处理,并为分词处理得到的分词匹配相应的分词向量,所述分词向量为一维输入矩阵;
对所述分词向量进行格式转换,将一维输入矩阵转化为二维输入矩阵;
将所述二维输入矩阵输入到卷积神经网络进行卷积处理,得到向量矩阵;
提取所述向量矩阵中的第一维的向量,并将所述第一维的向量作为多维特征数据。
5.根据权利要求4所述的方法,其特征在于,所述为分词处理得到的分词匹配相应的分词向量,具体包括:
从分词处理得到的分词中获取预定数量的分词,为所述预定数量的分词分别匹配相应的分词向量;
将所述二维输入矩阵输入到卷积神经网络进行卷积处理,得到向量矩阵,具体包括:
将所述二维输入矩阵输入到卷积神经网络进行卷积处理,得到一个数量为(a-b+1)*1的向量矩阵;
其中,a为预定数量,b为卷积神经网络的卷积核高度。
6.根据权利要求3所述的方法,其特征在于,所述训练文字信息按照时间顺序分为多个时序的训练文字信息,对应得到多个多维特征数据,将所述多维特征数据输入到长短期记忆网络进行处理,获得训练函数,具体包括:
将多个多维特征数据输入到长短期记忆网络进行处理,得到多个输出数据;
选取最后一个时间点的输出数据作为目标数据;
对所述目标数据进行后期处理,获得训练函数。
7.根据权利要求6所述的方法,其特征在于,对所述目标数据进行后期处理,获得训练函数,具体包括:
为所述目标数据添加全链接;
将添加全链接的目标数据输入归一化指数函数进行归一化处理,得到交叉熵损失函数;
将所述交叉熵损失函数确定为训练函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711192496.7/1.html,转载请声明来源钻瓜专利网。