[发明专利]一种基于混淆模式识别的垃圾邮件识别方法有效

专利信息
申请号: 201410187595.6 申请日: 2014-05-06
公开(公告)号: CN103944809B 公开(公告)日: 2017-05-24
发明(设计)人: 郭锋;李绍滋;曹冬林 申请(专利权)人: 厦门大学
主分类号: H04L12/58 分类号: H04L12/58;H04L29/06
代理公司: 厦门市首创君合专利事务所有限公司35204 代理人: 张松亭
地址: 361000 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于混淆模式识别的垃圾邮件识别方法,该方法将电子邮件的主题、正文和html代码根据预先统计的特殊字符库替换为仅由0、1、2三种字符构成的字符串,再利用预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库对主题、正文和html代码进行混淆模式识别,从而判断出当前电子邮件是否为垃圾邮件。本发明具有很好的创新性,是对传统反垃圾技术的很好补充,能够在不影响准确率的情况下有效提高垃圾邮件识别的召回率。
搜索关键词: 一种 基于 混淆 模式识别 垃圾邮件 识别 系统
【主权项】:
一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,该方法的垃圾邮件识别过程包括:1)从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码;2)预处理:将所述主题中的空格去掉,消除所述正文中控制字符的影响;3)归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“0”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为1或0,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为0;4)混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由0、1、2三种字符构成的正文整合为一个第二字符串,将由0、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库;5)判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件;6)将判定结果返回给上级系统,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410187595.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top