[发明专利]一种基于混淆模式识别的垃圾邮件识别方法有效
申请号: | 201410187595.6 | 申请日: | 2014-05-06 |
公开(公告)号: | CN103944809B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 郭锋;李绍滋;曹冬林 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06 |
代理公司: | 厦门市首创君合专利事务所有限公司35204 | 代理人: | 张松亭 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混淆 模式识别 垃圾邮件 识别 系统 | ||
1.一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,该方法的垃圾邮件识别过程包括:
1)从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码;
2)预处理:将所述主题中的空格去掉,消除所述正文中控制字符的影响;
3)归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“0”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为1或0,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为0;
4)混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由0、1、2三种字符构成的正文整合为一个第二字符串,将由0、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库;
5)判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件;
6)将判定结果返回给上级系统,结束。
2.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,步骤3)之前还包括:抽取所述html代码中包括“<INPUT”的行,并截取出该html行中从“<INPUT”到其之后的第一个“>”之间的内容,获取该内容中的width值、high值和value值的长度;若该内容中的value值的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阈值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
3.如权利要求1或2所述的一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,步骤3)之前还包括:抽取所述html代码中包括“<TEXTAREA”的行,并截取出该html行中从“<TEXTAREA”到其之后的第一个“TEXTAREA>”之间的内容,获取该内容中的width值、high值和value值的长度;若该内容中的value值的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阈值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
4.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,步骤3)之前,还包括:抽取所述正文的前n行,其中n为一个预设的自然数;若所述主题或该前n行中包括属于预先统计的回信字符库中的特征词,则当前电子邮件被判定为正常邮件,并将判定结果返回给上级子系统,结束;若否,则继续往下执行。
5.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别方法,其特征在于,所述特殊字符库包括中文特殊字符子库、日文特殊字符子库、韩文特殊字符子库、泰文特殊字符子库及其他国家的非单字节字符的特殊字符子库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410187595.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种邮件提示方法和设备
- 下一篇:调温混纺机织物及其生产方法