[发明专利]一种基于机器学习的图像垃圾邮件过滤方法有效
申请号: | 201811053556.1 | 申请日: | 2018-09-11 |
公开(公告)号: | CN109347719B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 赵俊生;候圣 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06K9/62 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 010051 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 图像 垃圾邮件 过滤 方法 | ||
本发明涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与人工智能技术领域。针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的HSV颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于K‑NN算法、朴素贝叶斯算法、判别分析算法、SVM算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定HSV颜色直方图维度为16维,K‑NN算法的K值为5时可取得最好的分类效果。本方法使图像垃圾邮件过滤的准确率、召回率和F值同时提高到了97%,误判率降低到了3%以下。
技术领域
本发明涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与技术学科的人工智能技术领域。
背景技术
目前垃圾邮件发送者为了避免基于文本的垃圾邮件过滤,将垃圾信息以图像的形式进行了显示,并将图像通过邮件发送,所以对图像垃圾邮件的过滤成为亟待解决的新问题。从资源利用角度讲,图像垃圾邮件所占空间的大小是纯文本邮件的数十倍,其传送会浪费大量的网络带宽,并占据大量的个人存储空间。从社会影响的角度讲,有效过滤掉含有不良图像的垃圾邮件,就能在一定程度上抑制广告、欺诈等不良信息带来的负面影响。从科研角度讲,对垃圾邮件图像的收集可以为针对中国基于垃圾邮件过滤方法的数据库做出贡献,也为基于图像垃圾邮件过滤提供了新的方法。
现有的图像型垃圾邮件过滤技术有限制IP地址的黑名单方法,也有提取邮件的文字特征或简单的图像特征与机器学习算法相结合的过滤方法,但采用的特征数据和机器学习算法大多数比较单一,且机器学习算法多采用国外的标准图像垃圾邮件样本为数据源进行实验,这对我国的图像垃圾邮件过滤针对性不强。同时,目前已有的图像型垃圾邮件过滤方法的误报率仍然较高。所以,很有必要收集邮箱中的图像信息,对邮箱中的图像信息进行分析比对,建立适合进行垃圾邮件过滤的图像库,并对库中的图像进行标记。在此基础上,对过滤垃圾邮件的图像特征进行较全面的分析,如颜色特征(HSV(Hue,Saturation,Value,色调,饱和度,亮度)颜色直方图和颜色矩)、纹理特征、形状特征等,从较为基础的图像特征中找到适用于垃圾邮件过滤的特征。将取得的图像特征数据应用于机器学习算法,如K-NN(K-NearestNeighbor,K近邻算法)算法、朴素贝叶斯算法、判别分析算法、SVM(SupportVector Machine,支持向量机)算法和随机森林算法等,并将各算法取长补短发挥各自的优势形成集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析并最终确定。
因此,无论是个人、企业,还是国家行政事业单位,都迫切需要有效的过滤垃圾邮件的方法来改善现有的电子邮件环境。
发明内容
本发明的目的是针对垃圾邮件尤其是图像垃圾邮件存在的严重危害网络和个人隐私安全以及对我们的工作和生活造成了极大的干扰这一问题,提出了一种基于机器学习的图像垃圾邮件过滤方法,是一种新的基于结果标签投票的组合过滤方法,该方法对我国的多种垃圾邮件图像集过滤得到较高的准确率、召回率和综合性能F值,为邮件服务提供商提供一种有效过滤图像垃圾邮件的技术手段。
一种基于机器学习的图像垃圾邮件过滤方法,该方法主要解决现有图像垃圾邮件过滤方法存在的以下缺陷:一是未建立针对中国的图像垃圾邮件的图像数据库,这样很难保证后续图像特征的基础数据的准确性;二是所采用的图像特征和机器学习算法单一,很难同时提高图像垃圾邮件过滤的准确率和召回率,使得过滤方法的误报率仍然较高。
本发明的核心思想是:针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的HSV颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于K-NN算法、朴素贝叶斯算法、判别分析算法、SVM算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定HSV颜色直方图维度为16维,K-NN算法的K值为5时可取得最好的分类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811053556.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序