[发明专利]一种基于混淆模式识别的垃圾邮件识别方法有效

申请号：	201410187595.6	申请日：	2014-05-06
公开（公告）号：	CN103944809B	公开（公告）日：	2017-05-24
发明（设计）人：	郭锋;李绍滋;曹冬林	申请（专利权）人：	厦门大学
主分类号：	H04L12/58	分类号：	H04L12/58;H04L29/06
代理公司：	厦门市首创君合专利事务所有限公司35204	代理人：	张松亭
地址：	361000 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混淆模式识别垃圾邮件识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混淆模式识别的垃圾邮件识别方法，其特征在于，该方法的垃圾邮件识别过程包括：

1)从上级系统接收一封电子邮件，分别读取该电子邮件的主题、正文和html代码；

2)预处理：将所述主题中的空格去掉，消除所述正文中控制字符的影响；

3)归一化：将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”，其他单字节符替换为“0”；结合预先统计的特殊字符库，将所述主题、正文和html代码的所有非单字节符替换为1或0，具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1，所有由所述特殊字符库定义的正常文字替换为0；

4)混淆模式识别：将由0、1、2三种字符构成的主题整合为一个第一字符串，将由0、1、2三种字符构成的正文整合为一个第二字符串，将由0、1、2三种字符构成的html代码整合为一个第三字符串；分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库；

5)判定：若第一字符串符合所述主题混淆模式库中的一种混淆模式，或第二字符串符合所述正文混淆模式库中的一种混淆模式，或第三字符串符合所述html代码混淆模式库中的一种混淆模式，则当前电子邮件被判定为垃圾邮件；否则，当前电子邮件被判定为正常邮件；

6)将判定结果返回给上级系统，结束。

2.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法，其特征在于，步骤3)之前还包括：抽取所述html代码中包括“<INPUT”的行，并截取出该html行中从“<INPUT”到其之后的第一个“>”之间的内容，获取该内容中的width值、high值和value值的长度；若该内容中的value值的长度大于width值乘以high值加上5，则该html行为一个错误行；若整个电子邮件的html代码中的错误行数大于预设的阈值，则该电子邮件被判定为垃圾邮件，将判定结果返回给上级系统，结束；若否，则继续往下执行。

3.如权利要求1或2所述的一种基于混淆模式识别的垃圾邮件识别方法，其特征在于，步骤3)之前还包括：抽取所述html代码中包括“<TEXTAREA”的行，并截取出该html行中从“<TEXTAREA”到其之后的第一个“TEXTAREA>”之间的内容，获取该内容中的width值、high值和value值的长度；若该内容中的value值的长度大于width值乘以high值加上5，则该html行为一个错误行；若整个电子邮件的html代码中的错误行数大于预设的阈值，则该电子邮件被判定为垃圾邮件，将判定结果返回给上级系统，结束；若否，则继续往下执行。

4.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法，其特征在于，步骤3)之前，还包括：抽取所述正文的前n行，其中n为一个预设的自然数；若所述主题或该前n行中包括属于预先统计的回信字符库中的特征词，则当前电子邮件被判定为正常邮件，并将判定结果返回给上级子系统，结束；若否，则继续往下执行。

5.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法，其特征在于，所述特殊字符库包括中文特殊字符子库、日文特殊字符子库、韩文特殊字符子库、泰文特殊字符子库及其他国家的非单字节字符的特殊字符子库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门大学，未经厦门大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410187595.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混淆模式识别的垃圾邮件识别方法有效

专利文献下载