[发明专利]一种基于机器学习的恶意PNG图像识别方法有效
申请号: | 201810128524.7 | 申请日: | 2018-02-08 |
公开(公告)号: | CN108509775B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 杨悉瑜;翁健;魏林锋;杨悉琪;潘冰;张悦;李明 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F21/16 | 分类号: | G06F21/16;G06F21/56;G06T1/00;G06T5/20;H04L29/06 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 陈燕娴;林梅繁 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 恶意 png 图像 识别 方法 | ||
1.一种基于机器学习的恶意PNG图像识别方法,其特征在于,包括以下步骤:
步骤一、通过机器学习建立PNG图像特征库和数字隐写识别模型;
步骤二、在服务端对所有上传图片文件的请求进行审查,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则拒绝上传请求;否则,PNG图片通过初步识别,进入步骤三;
步骤三、对于通过初步识别的PNG图片格式文件,调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,若存在,则拒绝上传请求;若不存在,则允许上传请求;
步骤四、在客户端监测网页传输过程中的PNG图片格式文件数据,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则禁止访问该图片资源;否则,进入步骤五;
步骤五、调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,对于存在信息隐藏的图片,认为可能隐藏恶意信息,禁止访问该图片资源;
步骤二中,对上传图片文件的请求进行审查,审查信息包括以下:(1).文件后缀名;(2).HTTP报文消息头声明的内容样式Content-type;(3).传输内容是否经过编码;(4).传输内容是否合法。
2.根据权利要求1所述的基于机器学习的恶意PNG图像识别方法,其特征在于,步骤一所述的建立PNG图像特征库,过程如下:首先提供批量PNG图像作为训练集数据导入机器学习系统;其次建立PNG图像特征识别库,包括以下特征信息:(1).PNG头部特征;(2).PNG结束标志IEND块;(3).记录PNG图像信息的IHDR块;(4).存储实际图像数据的IDAT块;(5).存储图像冗余信息块;最后针对以上识别库,选用支持向量机模型进行特征学习,完成对目标的识别分类。
3.根据权利要求1所述的基于机器学习的恶意PNG图像识别方法,其特征在于,步骤一所述的数字隐写识别模型,采用浅层学习和深度学习结合的方式来建立:一方面基于经典隐写算法的隐写特征建立特征库进行特征学习;另一方面,基于隐写后的图像质量势必发生细微变化的特征,对含有隐写信息的PNG图像和不含隐写信息的PNG图像分别使用高通滤波器进行滤波预处理,增强图像显示特征,将获得的残差图像作为训练集,然后选用卷积神经网络模型进行迁移学习,最终输出图像存在数字隐写的概率;
所述卷积神经网络模型的结构包括:
输入:处理后的残差图像所有像素点值;
特征结构层:使用预先训练的模型作为特征提取器;
分类器:包括相连接的全连接层和分类函数;
输出:图像存在数字隐写的概率;当输出的概率大于0.8时,认为图像存在数字隐写;
所述分类器使用基于图像质量度量盲检测方法构建:
使用方差分析技术,通过定义多种图像质量的度量来选择特征向量;两幅图像的不相似度的范数通过在空间上取像素差异的Minkowsky平均值然后用色度表示:
其中γ=1时Mγ表示绝对平均误差,γ=2时Mγ表示均方误差,Ck(i,j)表示像素位置i,j和像素k的正常图像的多光谱分量,表示像素位置i,j和像素k的隐写图像的多光谱分量,N表示图像像素总数;
所选择的图像质量度量形成一个多维特征空间;
选取合适的特征集后,在大量实验数据上建立多元线性回归模型,在回归模型基础上建立区分正常图像和隐写图像的分类器。
4.根据权利要求3所述的基于机器学习的恶意PNG图像识别方法,其特征在于,所述基于经典隐写算法的隐写特征建立特征库进行特征学习,为选用RS分析算法对PNG图像进行有监督的学习:
首先将输入待训练模型的图像划分为多个大小相同的图像块,对各个图像块扫描排列成像素向量G={x1,x2,...,xn},并使用如下公式计算每个图像块的空间相关性:
其中xi表示每个像素的灰度值,且f值越小,说明相邻像素点间灰度值变化越小,图像块空间相关性越强;
然后对每个图像块随机抽取部分像素应用非负翻转操作,其中翻转函数定义如下:
记F1为像素值2i与2i+1的相互变化关系,即
记F-1为像素值2i-1与2i的相互变化关系,即
记F0为像素值不变关系;
计算其空间相关性增加的图像块的比例RM或减少的图像块的比例SM:
同样,对每个图像块随机抽取部分像素应用非正翻转操作,计算其空间相关性增加的图像块的比例R-M或减少的图像块的比例S-M:
若当对图像应用非正翻转操作导致的混乱程度的增加大于应用非负翻转操作导致的混乱程度的增加时,对该PNG图像设置标签为存在LSB隐写特征;反之,设置标签为不存在LSB隐写特征,并进行输出;
将PNG图像作为输入物件,是否存在LSB隐写特征作为预期输出,最终由输入物件和预期输出组成训练资料并建立一个学习模式,并依此学习模式推测新的PNG图像是否存在LSB隐写。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810128524.7/1.html,转载请声明来源钻瓜专利网。