[发明专利]一种基于机器学习的图像垃圾邮件过滤方法有效

专利信息
申请号: 201811053556.1 申请日: 2018-09-11
公开(公告)号: CN109347719B 公开(公告)日: 2021-01-15
发明(设计)人: 赵俊生;候圣 申请(专利权)人: 内蒙古工业大学
主分类号: H04L12/58 分类号: H04L12/58;G06K9/62
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 010051 内蒙古*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与人工智能技术领域。针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的HSV颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于K‑NN算法、朴素贝叶斯算法、判别分析算法、SVM算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定HSV颜色直方图维度为16维,K‑NN算法的K值为5时可取得最好的分类效果。本方法使图像垃圾邮件过滤的准确率、召回率和F值同时提高到了97%,误判率降低到了3%以下。
搜索关键词: 一种 基于 机器 学习 图像 垃圾邮件 过滤 方法
【主权项】:
1.一种基于机器学习的图像垃圾邮件过滤方法,其特征在于:所述方法中相关的定义如下:定义1.图像型垃圾邮件:在收件人不是出于个人要求或是同意接受的各种形式的具备宣传性的、无法拒收的含有非正当政治目的的信息、含有虚假或隐藏诈骗的信息、含有黄赌毒的信息或是广告信息的以图像形式构成的图像邮件,都称之为图像型垃圾邮件;定义2.图像型常规邮件:是收件人有意愿查收的有实际意义的、有需求价值的和无不良信息的含有图像的邮件称之为图像型常规邮件;图像型常规邮件和图像型垃圾邮件,统称为图像型邮件;所述方法,包括以下步骤:步骤一、通过从互联网以及邮箱收件为主的渠道大量收集垃圾邮件中的图像和常规邮件图像,分别获得全面的垃圾邮件图像数据库和常规邮件图像数据库,并根据这两种数据库分别生成训练集和测试集;其中,获得的垃圾邮件图像数据库的X%和常规邮件图像数据库的X%数据作为训练集;获得的垃圾邮件图像数据库的Y%和常规邮件图像数据库的Y%数据作为测试集;X%和Y%的和为1;步骤一,具体又包含如下子步骤:步骤1.1、官网上注册个人邮箱;其中,官网主要包括网易、搜狐、新浪、google以及QQ;步骤1.2、从步骤1.1注册的个人邮箱的收件箱中收集所有垃圾邮件图像和常规邮件图像,建立邮件图像数据库;步骤1.3、对步骤1.2建立的邮件图像数据库按照定义1和定义2,即图像型垃圾邮件的定义和图像型常规邮件的定义进行图像垃圾邮件和图像常规邮件的判别,并进行标记,分别形成垃圾邮件图像和常规邮件图像两种数据集;垃圾邮件图像和常规邮件图像统称为邮件图像;其中,取垃圾邮件图像的X%和常规邮件图像的X%生成训练集,剩余的垃圾邮件图像的Y%和常规邮件图像的Y%生成测试集,X%+Y%=1;步骤二、对步骤一输出的训练集中图像的图像特征进行分析,提取图像的颜色特征、纹理特征和形状特征,通过实验比对选择适合于图像分类的图像特征和分类器进行垃圾邮件与常规邮件的分类,具体包括如下子步骤:步骤2.1、通过实验分析图像的颜色特征的HSV颜色直方图和颜色矩、图像的纹理特征和图像的形状特征,并提取相关的特征值;其中,HSV颜色直方图包括H通道的颜色直方图、S通道的颜色直方图和V通道的颜色直方图;步骤2.1又包括如下子步骤:步骤2.1.1、对颜色空间进行划分,得到若干个子区间就是直方图的bin,bin中的数值是从图像颜色数据中计算出特征统计量;建立直方图并转换为一维颜色直方图,生成一维向量;其中,颜色空间进行划分,具体为:对颜色空间上的数值进行量化,通过对每一个bin中包含颜色的像素个数进行统计,得到颜色直方图;再对颜色直方图中V通道、H通道以及S通道的值进行量化,即对通道的数值进行等分;其中,在建立直方图时,不选用图像的明度信息,即V通道的值,只选取H通道和S通道进行信息统计,具体包括如下子步骤:步骤2.1.1A分别对H通道和S通道的数据进行等级划分,该等级划分相当于对H通道与S通道建立给定区间范围的直方图;其中,H通道和S通道的数据分布的较为分散,H通道的数值在0至360之间,S通道的数值在0到1之间;步骤2.1.1B对步骤2.1.1A得出的H通道和S通道的直方图进行合并,得到一维的颜色直方图表示;其中,颜色矩是一种轻量级的、计算快速的颜色分布表示特征;利用颜色矩表达图像信息只需要计算9个分量即可,颜色矩适用于HSV和RGB两种通道上,因为这两种通道都含有3个颜色分量,每个分量上只需要计算3个低阶矩:一阶矩是图像像素的平均值信息,二阶矩是图像像素的方差信息,三阶矩是图像像素的偏斜度信息,这样就较全面的表示出图像的颜色分布;其中,提取颜色矩主要有如下三个步骤:步骤2.1.1C将垃圾邮件图像和常规邮件图像由RGB通道转换到HSV通道,并对HSV通道的图像数据进行计算,求出其均值、方差和斜度;步骤2.1.1D再对步骤2.1.1C求出的均值、方差和斜度进行归一化处理,得出归一化处理后的数据;步骤2.1.1E最后,将归一化处理后的数据转换为向量的形式拼接成一维向量;步骤2.1.2、提取图像的纹理特征,即先将真彩色图像转换为灰度图像,再对灰度图像进行压缩、计算灰度共生矩阵以及计算灰度共生矩阵对应的能量、熵、惯性矩和相关性数值四个量的平均值和标准差,即用8维数据来表示图像的纹理特征;其中,真彩色图像指邮件图像;步骤2.1.2主要包括如下三个子步骤:步骤2.1.2A将真彩色图像转换为灰度图像,采用统计法提取邮件图像纹理特征中的灰度共生矩阵,具体为:在图像的水平方向、垂直方向、对角线方向和反对角线方向上建立图像的灰度共生矩阵,方向角度为0°、45°、90°和135°,在邮件图像中一个像素点(x,y)和偏离的另一个像素点(x+a,y+b)的点对的灰度值为(i,j),点(x,y)在邮件图像上移动得到不同的(i,j)值,灰度值的级数L取256,i与j的组合就有L2种,统计出每一种(i,j)值出现的次数,再将它们归一化为出现的概率Pij,得到的方阵[Pij]L×L为灰度共生矩阵;步骤2.1.2B对步骤2.1.2A转换出的灰度图像进行压缩,图像灰度值的区间为[0,255],将该区间的值等分为16级,得到压缩后的灰度图像;步骤2.1.2C基于步骤2.1.2B输出的压缩后的灰度图像计算四个共生矩阵P;其中,取距离为1,角度为0°、45°、90°和135°;步骤2.1.2D对步骤2.1.2C生成的四个灰度共生矩阵分别进行归一化处理,生成归一化后的灰度共生矩阵,然后求得此归一化灰度共生矩阵对应的能量、熵、惯性矩和相关性数值,再计算出以上四个量的平均值和标准差,共计8维数据来表示图像的纹理特征;步骤2.1.3、根据形状不变矩法提取邮件图像中特定目标的整体轮廓特征和邮件图像区域特征,采用HU不变矩来生成邮件图像的形状特征;其中,提取形状特征主要有如下三个步骤:步骤2.1.3A定义邮件图像的表示函数为f(x,y);步骤2.1.3B再定义邮件图像的标准矩的中心矩;步骤2.1.3C最后根据二阶与三阶归一化后的中心矩构造HU不变矩,求出每个邮件图像的7个不变矩,并将这7个不变矩转换为一维向量后拼接得到该邮件图像的形状特征;步骤2.2、通过实验比对选择适合于图像分类的图像特征和分类器,选取分类准确率和召回率较高的HSV颜色直方图特征和纹理特征通过K‑NN分类器和集成学习分类器进行垃圾邮件与常规邮件的分类;步骤2.2.1、将颜色特征、纹理特征和形状特征分别输入K‑NN算法、朴素贝叶斯算法、集成学习算法、判别分析算法、SVM算法和随机森林算法进行六组实验,由实验结果中稳定性最好的算法对邮件图像进行分类;其中,在六组实验中分别测试了颜色矩、HSV颜色直方图、纹理特征和形状特征在邮件图像分类的准确率和召回率的数值,同时对六组实验进行了整体的纵向的分析比较,根据以上的实验结果,得知在图像特征方面,图像的HSV颜色直方图特征和纹理特征表现的最好也最稳定,通过纵向的比较,得知在分类器方面,K‑NN分类器和集成学习分类器的表现最好、最稳定;综合以上结论,采用HSV颜色直方图和纹理特征作为主要应用的图像特征,K‑NN分类器和集成学习分类器作为主要应用的分类器;最终得出最适合应用于垃圾邮件过滤的两种图像特征是HSV颜色直方图和纹理特征,分类效果最好的两种分类器是K‑NN分类器和集成学习分类器;其中,集成学习分类器是在训练集上利用多个单独的分类器进行训练,通过将这些独立的训练好的分类器迭代的进行最优组合,直到得到强分类器为止,具体包括如下四个子步骤:步骤2.2.1A、为每个单独的分类器的分类数据都赋予一定的权重;步骤2.2.1B、将单独的分类器在训练集上运行,得到当前结构下每个单独分类器的分类准确率;步骤2.2.1C、调整权重,将上次正确分类的样本权重提高,上次错误分类的样本权重降低;步骤2.2.1D、重复步骤2.2.1B和步骤2.2.1C,使两次分类的正确率之差收敛至预期值为止;步骤2.2.2、通过三组实验进一步确定HSV颜色直方图维度为16维、32维和64维时应用于各种分类器时的分类平均准确率,结果显示HSV颜色直方图维度为16维时各分类器的分类平均准确率最高,所以确定用于分类的HSV颜色直方图特征的维度为16维;步骤2.2.3、再通过三组实验进一步确定HSV颜色直方图维度为16维、32维和64维时K‑NN分类器在K值取3、5、7和9时的分类平均准确率,结果K=5时的分类准确率最高;步骤2.2.4、最后确定采用纹理特征时K‑NN分类器在K值取3、5、7和9时的分类平均准确率,结果同样显示K=5时的分类准确率最高;根据以上实验验证结果,最终确定选择适合于图像分类的图像特征是维度为16维的HSV颜色直方图特征和纹理特征,适合于图像分类的分类器是K=5时的K‑NN分类器和集成学习分类器;步骤三、使HSV颜色直方图特征和纹理特征两种邮件图像特征分别输入基于粗糙集属性约简的K‑NN分类器,得到两种分类结果,再使HSV颜色直方图特征和纹理特征两种邮件图像特征分别输入集成学习分类器,又得到两种分类结果,共计四种组合分类结果,通过分类标签投票的方法,在测试集上进行实验,验证实验结果并对结果进行性能评价,最终提高对图像垃圾邮件有效过滤的准确率、召回率和综合性能F值;具体包括如下子步骤:步骤3.1、在测试集上进行实验验证,对K‑NN分类器和集成学习分类器做出准确率、召回率和F值为主的性能作出评价;其中,准确率评价指标用公式(1)来计算:其中,Precision是准确率,反应了过滤系统找对垃圾邮件的能力;A表示被正确分类的垃圾邮件数目,B表示非垃圾邮件被误判为垃圾邮件的数目;召回率评价指标用公式(2)来计算:其中,Recall是召回率,反应了过滤系统发现垃圾邮件的能力;A表示被正确分类的垃圾邮件数目,C表示垃圾邮件被误判为非垃圾邮件的数目;误判率评价指标用公式(3)来计算:其中,FailureRate是误判率,表示将非垃圾邮件判定为垃圾邮件的概率。A表示被正确分类的垃圾邮件数目,B表示非垃圾邮件被误判为垃圾邮件的数目;F值评价指标用公式(4)来计算:其中,F值是召回率与准确率之间的一个综合平衡指标,它反映垃圾邮件过滤的综合效果;步骤3.2、针对各种分类器进行性能评价后,对待测邮件图像采用HSV颜色直方图特征通过K‑NN分类器得到分类结果1,HSV颜色直方图特征通过集成学习分类器得到分类结果2,纹理特征通过K‑NN分类器得到分类结果3,纹理特征通过集成学习分类器得到分类结果4,然后对各分类结果进行标签投票,如果判定为垃圾邮件的结果大于2时,则最终把这封邮件判定为垃圾邮件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811053556.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top