[发明专利]垃圾邮件过滤方法及装置有效
申请号: | 201110264365.1 | 申请日: | 2011-09-08 |
公开(公告)号: | CN103001848A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 郭涛;于洪涌;薛立宏;丘凌;张国威 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 颜镝 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 过滤 方法 装置 | ||
技术领域
本发明涉及反垃圾邮件技术,尤其涉及一种垃圾邮件过滤方法及装置。
背景技术
垃圾电子邮件(简称垃圾邮件)是指未经用户许可就强行发送到用户的邮箱中的任何电子邮件。电子邮件是目前互联网用户的基础应用之一,而垃圾邮件主要通过电子邮箱来发送。2010年12月监测数据显示,全球每天发送的垃圾电子邮件数量约为500亿个。垃圾邮件的内容包括推销广告、成人广告、赚钱信息,以及包含电脑病毒等破坏性的电子邮件,给电子邮件使用者带来了诸多困扰,因此各大邮件提供商都把提升电子邮件反垃圾系统效果作为提升邮箱用户体验的重要关注点。
常用的反垃圾系统是通过预定义的关键字技术进行过滤的,即先预定义一个关键字列表,然后从通过的邮件中抓取内容与关键字列表进行对比,如果有命中的则进行相应的垃圾邮件拦截动作。这种单纯的关键字列表匹配方式虽然实现比较简单,但很容易被垃圾邮件制造者通过加插干扰字符、使用同音字、使用形近字等方式规避,进而令垃圾邮件过滤系统失效。
另外,单纯关键字过滤的方案在识别正常邮件的能力上还有欠缺,可能将部分正常邮件错误拦截,影响到电子邮件使用者的正常使用。
发明内容
本发明的目的是提出一种垃圾邮件过滤方法及装置,能够在提高垃圾邮件的拦截范围的同时,保证垃圾邮件过滤的准确度。
为实现上述目的,本发明提供了一种垃圾邮件过滤方法,包括:
在接收到电子邮件时,扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;
如果存在命中条目,则对所述电子邮件进行情境分析,并根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;
根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率,并将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件,并对确定为可疑垃圾邮件的电子邮件进行拦截处理。
为实现上述目的,本发明提供了一种垃圾邮件过滤装置,包括:
电子邮件接收单元,用于接收电子邮件;
模糊词扫描单元,用于扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;
情境分析单元,用于在存在命中条目时,对所述电子邮件进行情境分析;
向量调整单元,用于根据所述电子邮件对应的情境调整得到所述电子邮件的邮件值向量;
垃圾邮件概率计算单元,用于根据调整后得到的所述电子邮件的邮件值向量计算垃圾邮件概率;
阈值比较单元,用于将所述垃圾邮件概率与预设阈值进行比较,以判断所述电子邮件是否为可疑垃圾邮件;
邮件处理单元,用于对确定为可疑垃圾邮件的电子邮件进行拦截处理。
基于上述技术方案,本发明基于模糊词识别和情境分析,对包含模糊词的垃圾邮件进行拦截,在大大提高垃圾邮件的拦截范围的同时保证过滤的准确度,还对现有的以关键字过滤方式的垃圾邮件拦截方式提供了进一步的补充和优化。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明垃圾邮件过滤方法的一实施例的流程示意图。
图2为本发明垃圾邮件过滤方法的另一实施例中建立模糊词和情境识别库的流程示意图。
图3为本发明垃圾邮件过滤方法的又一实施例的流程示意图。
图4为本发明垃圾邮件过滤装置的一实施例的结构示意图。
图5为本发明垃圾邮件过滤装置的另一实施例中实现建库过程的相关单元的结构示意图。
图6为本发明垃圾邮件过滤装置的又一实施例的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明在反垃圾邮件系统已有关键字拦截基础上增加模糊词(包括同音词、形近词、拆分词等)识别的垃圾邮件分拣方法,以便拦截经过模糊词处理的垃圾邮件。本发明在识别过程中,对邮件进行模糊词和情境处理,在处理过程中综合考虑邮件的干扰符情况、模糊词命中情况、对应的情境辅助分析等,基于向量运算和概率,对邮件进行分拣,并根据处理结果对系统进行优化。
如图1所示,为本发明垃圾邮件过滤方法的一实施例的流程示意图。在本实施例中,垃圾邮件过滤方法包括:
步骤101、在接收到电子邮件时,扫描所述电子邮件的内容中是否存在命中预设的模糊词和情境识别库中条目的模糊词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110264365.1/2.html,转载请声明来源钻瓜专利网。