[发明专利]一种自动过滤垃圾邮件的方法及其系统在审
申请号: | 201910406048.5 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110149268A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 倪佳欢;邓庆庆;杨沙;何从华 | 申请(专利权)人: | 深圳市趣创科技有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F16/35;G06F17/27 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 冯筠 |
地址: | 518000 广东省深圳市宝安区西乡*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 自动过滤 贝叶斯 计算处理 接收邮件 结果分析 样本分类 用户提供 用户体验 邮件内容 正常邮件 分类项 客户端 分词 概率 探针 样本 拦截 分类 客户 学习 | ||
本发明涉及一种自动过滤垃圾邮件的方法及其系统;其中,自动过滤垃圾邮件的方法,包括以下步骤:S1,客户端接收邮件;S2,对邮件内容进行分词操作;S3,采用朴素贝叶斯进行样本分类;S4,计算在此项出现的条件下各类别出现的概率;若为正常邮件,则将邮件发送给客户;若是垃圾邮件,则将邮件清理。本发明采用贝叶斯定理的概率探针判断,通过贝叶斯分类对邮件词集样本的学习,计算待分类项属于哪个类别,然后根据进行计算处理的结果分析,最终对垃圾邮件进行拦截,效果非常明显,从而大大降低了垃圾邮件的骚扰频率,给用户提供最佳用户体验。
技术领域
本发明涉及邮件过滤方法技术领域,更具体地说是指一种自动过滤垃圾邮件的方法及其系统。
背景技术
互联网的普及和发展,使得人们几乎每天都会收到各种各样的邮件,各种邮件里面有人们需要日常交流工作所需要的邮件,同时也包含了大量的垃圾邮件,这些垃圾邮件无孔不入,给用户带来了很多的困扰,这些垃圾邮件大多有如下特点:1、未经接受者同意,都是在没有事先征得邮件接收者同意的情况下单方发布;2、用户的邮箱一般是有存储空间上限的,频繁的接收骚扰邮件会导致正常工作开展受到影响;3、邮件的内容可能存在违法性,邮件可能包含有反动,迷信封建内容,会对社会造成危害和不良影响;对于此类垃圾邮件,人们非常抵触和反感;因此,有必要设计一种方法,可以自动形成防护,进行拦截或举报。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种自动过滤垃圾邮件的方法及其系统。
为实现上述目的,本发明采用于下技术方案:
一种自动过滤垃圾邮件的方法,包括以下步骤:
S1,客户端接收邮件;
S2,对邮件内容进行分词操作;
S3,采用朴素贝叶斯进行样本分类;
S4,计算在此项出现的条件下各类别出现的概率;若为正常邮件,则将邮件发送给客户;若是垃圾邮件,则将邮件清理。
其进一步技术方案为:所述S3之前,还包括:对朴素贝叶斯进行样本训练。
其进一步技术方案为:所述朴素贝叶斯的公式为:
其进一步技术方案为:所述朴素贝叶斯进行样本训练通过分词去重提取出邮件中词集,作为训练内容,将邮件内容分割成由n个单词的组合,并计算包含各组合单词的邮件是垃圾邮件的概率。
其进一步技术方案为:当P是垃圾邮件,则:
其进一步技术方案为:独立事件发生的概率计算公式:P(A*B)=P(A)*P(B);两个事件互为独立事件,两个事件的发生没有相关性;因此,P(单词1、单词2...单词n同时出现|是垃圾邮件)转换为如下公式:
P(单词1、单词2...单词n同时出现|是垃圾邮件)
=P(单词1|是垃圾邮件)*
P(单词2|是垃圾邮件)*
…
P(单词n|是垃圾邮件)*|。
一种自动过滤垃圾邮件的系统,包括:接收单元,分词操作单元,分类单元,及计算单元;
所述接收单元,用于客户端接收邮件;
所述分词操作单元,用于对邮件内容进行分词操作;
所述分类单元,用于采用朴素贝叶斯进行样本分类;
所述计算单元,用于计算在此项出现的条件下各类别出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市趣创科技有限公司,未经深圳市趣创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910406048.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种监控社交软件的方法、设备及系统
- 下一篇:一种通信方法、服务器和通信系统