[发明专利]一种过滤垃圾邮件的方法、装置及邮件服务器有效

申请号：	201710537313.4	申请日：	2017-07-04
公开（公告）号：	CN107171948B	公开（公告）日：	2020-08-25
发明（设计）人：	杨良志;刘再元;汪志新;丁德平	申请（专利权）人：	彩讯科技股份有限公司
主分类号：	H04L12/58	分类号：	H04L12/58
代理公司：	北京品源专利代理有限公司 11332	代理人：	潘登
地址：	518000 广东省深圳市南山区粤海街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种过滤垃圾邮件方法装置邮件服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种过滤垃圾邮件的方法、装置及邮件服务器。该方法包括通过预设规则库包括的第一规则对新接收的邮件进行预判定，得到邮件的参考垃圾评分；获取以历史邮件为机器学习的训练样本，对第一规则进行训练生成的第一垃圾概率值；基于聚类算法，根据第一垃圾概率值计算得到邮件的第二垃圾概率值；根据第二垃圾概率值的取值范围生成对应的聚合规则，并对聚合规则进行数据挖掘得到聚合规则对应的垃圾分值；根据参考垃圾评分和垃圾分值的和，判断邮件是否为垃圾邮件，解决垃圾邮件误判或漏判的问题，可以提升反垃圾引擎过滤垃圾邮件的能力，减少垃圾邮件误判或漏判的可能性。

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种过滤垃圾邮件的方法、装置及邮件服务器。

背景技术

随着网络用户的迅速增加，收发邮件已成为用户进行交流联系的主要手段。由于无需事前征求用户同意就可以在短时间内发送大量邮件给一个或者多个用户，因此邮件为广告宣传提供了成本低廉、传播面广的传播平台；正是由于这种非法利益的驱使，近年来垃圾邮件快速增长，所以迫切需要一个有效的方式来过滤垃圾邮件。

邮件过滤的核心问题是如何使用已知的邮件文本数据集合建立一个文本分类模型，然后使用这个模型对邮件类型进行判别，从而过滤出垃圾邮件。由于垃圾邮件过滤实际上是一个二分类问题，所以传统的分类方法虽然可以达到目的，但是效果并不好。目前邮件过滤主要采用的方法是给予规则过滤的方法，这种方法对于规则的依赖性很强，只要规则选取的好，相应的过滤结果也会非常好。但是垃圾邮件的特征也会不断的变化，导致传统的垃圾邮件过滤技术存在缺陷，对于垃圾邮件误判或漏判的可能性大大增加。

发明内容

本发明实施例提供一种过滤垃圾邮件的方法、装置及邮件服务器，可以提升反垃圾引擎过滤垃圾邮件的能力，减少垃圾邮件误判或漏判的可能性。

第一方面，本发明实施例提供了一种过滤垃圾邮件的方法，包括：

通过预设规则库包括的第一规则对新接收的邮件进行预判定，得到所述邮件的参考垃圾评分；

获取以历史邮件为机器学习的训练样本，对所述第一规则进行训练生成的第一垃圾概率值；

基于聚类算法，根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值，其中，第一垃圾概率值包括由第一规则判定所述邮件为垃圾邮件的概率，以及由第一规则判定所述邮件为正常邮件的概率；

根据所述第二垃圾概率值的取值范围生成对应的聚合规则，并对所述聚合规则进行数据挖掘得到所述聚合规则对应的垃圾分值，其中，所述垃圾分值为正值或负值；

根据所述参考垃圾评分和垃圾分值的和，判断所述邮件是否为垃圾邮件。

第二方面，本发明实施例还提供了一种过滤垃圾邮件的装置，该装置包括：

邮件预判定模块，用于通过预设规则库包括的第一规则对新接收的邮件进行预判定，得到所述邮件的参考垃圾评分；

获取模块，用于获取以历史邮件为机器学习的训练样本，对所述第一规则进行训练生成的第一垃圾概率值；

计算模块，用于基于聚类算法，根据所述第一垃圾概率值计算得到所述邮件的第二垃圾概率值，其中，第一垃圾概率值包括由第一规则判定所述邮件为垃圾邮件的概率，以及由第一规则判定所述邮件为正常邮件的概率；