[发明专利]基于部分匹配预测的垃圾邮件分类方法无效

专利信息
申请号: 200810120281.9 申请日: 2008-08-15
公开(公告)号: CN101345720A 公开(公告)日: 2009-01-14
发明(设计)人: 任沁清;彭鹏;陆冠中;徐从富 申请(专利权)人: 浙江大学
主分类号: H04L12/58 分类号: H04L12/58;G06K9/66
代理公司: 杭州求是专利事务所有限公司 代理人: 张法高
地址: 310027*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 部分 匹配 预测 垃圾邮件 分类 方法
【说明书】:

技术领域

发明涉及垃圾邮件过滤方法,尤其涉及一种基于部分匹配预测的垃圾邮件分类方法。

背景技术

电子邮件的盛行,主要原因是其方便、快捷及低成本;随着互联网普及,电子邮件逐渐成为人们生活中便利的通讯手段之一。然而,近年来,随着大型传统行业电子信息化的大力推进,信息系统领域里的垃圾邮件不可避免地随指数增长。垃圾邮件具有以下特点:数量多,具有反复性,强制性,欺骗性,不健康性及传播速度快。所以它严重干扰了人们的正常生活且对信息网络构成了严重威胁。由于垃圾邮件类型越来越复杂,多样。因此,研究垃圾邮件分类成为最近几年来的重要的研究课题。

垃圾邮件(SPAM Email)可以简单地定义为大量发送的未征得收信人同意的电子邮件,其盛行于网络也基于同样的理由。从垃圾邮件发送者的角度考虑,必会选择费用效益比最低的方式发送垃圾邮件。主要通过下述的几种方式发送:自建SMTP服务器大量发送垃圾邮件;通过病毒利用操作系统或者应用系统的漏洞发送(多数为含带病毒的)垃圾邮件;邮件服务器Openrelay漏洞被利用进行垃圾邮件的转发送;利用免费邮件供应商提供的邮件服务,以正常用户的方式进行垃圾邮件的发送。垃圾邮件的预处理,分类和过滤都是在邮箱对应服务器上进行,当server端程序员默认发送邮件给客户时,客户端遵守一定的协议(例如POP3或者是IMAP协议),正常接收邮件。

垃圾邮件的分类可以用多种方法,例如,被广泛应用的朴素贝叶斯方法,以及已经提出的罗切斯特回归法,SVM支持向量机方法。

朴素贝叶斯方法:在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Bayesian Model,NBC)。朴素贝叶斯分类假定一个属性值对给定类的影响独立其他属性的值。构造一个朴素贝叶斯分类器的过程其实主要是计算各个先验概率P(X)和后验概率P(X|H)的过程,以通过贝叶斯定理:P(H|X)=P(X|H)P(H)/P(X)得到后验概率P(H|X),即给定观测样本X,假定H成立的概率。

SVM支持向量机方法:朱永运用TFIDF公式将邮件文本映射成向量。然后用LibSVM对邮件样本进行训练得到模型。用模型对新的邮件进行分类。

Logistic回归方法:除了用logistic回归模型对邮件进行分类之外,其他都和SVM支持向量机方法一致。

但是这三种方法在速度,效率方面都存在问题,并且都不是增量学习方法,在准确率方面都存在疑问。

发明内容

本发明的目的是提供一种基于部分匹配预测的垃圾邮件过滤方法。

基于部分匹配预测的垃圾邮件过滤方法包括如下步骤:

1)将新邮件变换成为ASCII值在032-127范围内ASCII字符表对应的字符,如果原邮件中的字不在ASC II码字符表032~127ASC II值对应字符范围内,则这些字全部转换成为ASC II码字符表中001~031ASC II值中的任意一个对应的字符,变换后得到由001~127ASC II值对应字符组成的一个字符串;

2)取出以往垃圾邮件训练集、正常邮件训练集、垃圾邮件预测集和正常邮件预测集;

3)将正常邮件训练集经过部分匹配预测算法,训练成正常邮件模型,将垃圾邮件训练集经过部分匹配预测算法,训练成垃圾邮件模型;

4)将新邮件变换后得到的字符串和垃圾邮件模型进行交叉熵运算,将新邮件变换后得到的字符串和正常邮件模型进行交叉熵运算;

5)获得最小交叉熵的模型决定了新邮件是否是垃圾邮件或者正常邮件的分类结果;

6)新邮件分类完成之后,将新邮件加入预测集,进行分类预测后,重新训练集,使模型再继续学习,得到新的模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810120281.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top