[发明专利]一种基于混淆模式识别的垃圾邮件识别方法有效
申请号: | 201410187595.6 | 申请日: | 2014-05-06 |
公开(公告)号: | CN103944809B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 郭锋;李绍滋;曹冬林 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06 |
代理公司: | 厦门市首创君合专利事务所有限公司35204 | 代理人: | 张松亭 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于混淆模式识别的垃圾邮件识别方法,该方法将电子邮件的主题、正文和html代码根据预先统计的特殊字符库替换为仅由0、1、2三种字符构成的字符串,再利用预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库对主题、正文和html代码进行混淆模式识别,从而判断出当前电子邮件是否为垃圾邮件。本发明具有很好的创新性,是对传统反垃圾技术的很好补充,能够在不影响准确率的情况下有效提高垃圾邮件识别的召回率。 | ||
搜索关键词: | 一种 基于 混淆 模式识别 垃圾邮件 识别 系统 | ||
【主权项】:
一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,该方法的垃圾邮件识别过程包括:1)从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码;2)预处理:将所述主题中的空格去掉,消除所述正文中控制字符的影响;3)归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“0”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为1或0,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为0;4)混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由0、1、2三种字符构成的正文整合为一个第二字符串,将由0、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库;5)判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件;6)将判定结果返回给上级系统,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410187595.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种邮件提示方法和设备
- 下一篇:调温混纺机织物及其生产方法