[发明专利]一种垃圾邮件的识别方法、装置以及电子设备有效
申请号: | 201710085329.6 | 申请日: | 2017-02-17 |
公开(公告)号: | CN108462624B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 沈朝阳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 识别 方法 装置 以及 电子设备 | ||
本申请公开了一种垃圾邮件的识别方法,包括:提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。所述垃圾邮件的识别方法,根据噪音字符的特性识别待识别邮件当中的噪音字符,并进一步根据待识别邮件当中包含的噪音字符来识别待识别邮件是否为垃圾邮件,实现方式简单,识别垃圾邮件的准确率更高。
技术领域
本申请涉及垃圾邮件识别技术领域,具体涉及一种垃圾邮件的识别方法。本申请同时涉及一种垃圾邮件的识别装置,以及一种电子设备。
背景技术
随着网络技术的发展,在用户的工作和生活当中使用电子邮件变的越来越频繁,然而,用户经常会收到各种各样的垃圾邮件,并且需要辨别哪些邮件是正常邮件、哪些邮件是垃圾邮件,给用户工作和生活带来困扰。
目前,针对垃圾邮件的识别,通过收集大量的垃圾邮件和正常邮件作为样本邮件,并根据样本邮件分词后获得的词条在样本邮件当中的数目建立样本词条库;当用户有邮件需要识别时,对当前邮件的邮件主题和邮件内容进行分词,并统计分词获得的词条在样本词条库中出现的次数,根据统计得到的分词获得的词条在样本词条库中出现的次数,利用贝叶斯算法计算当前邮件为垃圾邮件的概率并与预设概率阈值进行比较,如果计算获得的概率大于或者等于预设概率阈值,则当前邮件为垃圾邮件;如果计算获得的概率小于预设概率阈值,则当前邮件为正常邮件。
然而,垃圾邮件制造者为了干扰和逃避垃圾邮件检查系统的检查,其手段之一就是在垃圾邮件中添加干扰信息,比如在邮件正文当中添加非文字字符这一类噪音字符,以干扰、逃避垃圾邮件检查系统的检查。因此,针对上述这些问题,采用现有的垃圾邮件的识别方法进行垃圾邮件的识别较为困难,具有一定的局限性。
发明内容
本申请提供一种垃圾邮件的识别方法,以解决现有技术存在识别困难的问题。本申请另外提供一种垃圾邮件的识别装置,以及一种电子设备。
本申请提供一种垃圾邮件的识别方法,包括:
提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;
结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;
判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。
可选的,所述噪音字符包括下述至少一项:非文字字符、单个字符以及稀疏词。
可选的,所述提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集步骤执行后,且所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比步骤执行前,执行下述步骤:
对获得的所述词条集当中的词条进行归一化处理。
可选的,所述对获得的所述词条集当中的词条进行归一化处理,包括:
利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。
可选的,所述基准词频表采用如下方式获得:
在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件;
提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;
按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;
根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710085329.6/2.html,转载请声明来源钻瓜专利网。