[发明专利]一种垃圾邮件的识别方法、装置以及电子设备有效

申请号：	201710085329.6	申请日：	2017-02-17
公开（公告）号：	CN108462624B	公开（公告）日：	2021-03-09
发明（设计）人：	沈朝阳	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	H04L12/58	分类号：	H04L12/58
代理公司：	北京清源汇知识产权代理事务所(特殊普通合伙) 11644	代理人：	冯德魁
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾邮件识别方法装置以及电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种垃圾邮件的识别方法，其特征在于，包括：

提取待识别邮件的正文并进行分词，获得所述待识别邮件的词条集；

结合预先获得的基准词频表识别所述词条集当中的噪音字符，并计算所述词条集当中的噪音字符占比；

判断所述噪音字符占比是否大于预设噪音字符占比阈值，若是，将所述待识别邮件识别为垃圾邮件，若所述噪音字符占比小于或者等于所述噪音字符占比阈值，则执行下述操作：判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间，若是，获取所述待识别邮件的邮件特征，判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值，若大于，将所述待识别邮件识别为垃圾邮件。

2.根据权利要求1所述的垃圾邮件的识别方法，其特征在于，所述噪音字符包括下述至少一项：

非文字字符、单个字符以及稀疏词。

3.根据权利要求2所述的垃圾邮件的识别方法，其特征在于，所述提取待识别邮件的正文并进行分词，获得所述待识别邮件的词条集步骤执行后，且所述结合预先获得的基准词频表识别所述词条集当中的噪音字符，并计算所述词条集当中的噪音字符占比步骤执行前，执行下述步骤：

对获得的所述词条集当中的词条进行归一化处理。

4.根据权利要求3所述的垃圾邮件的识别方法，其特征在于，所述对获得的所述词条集当中的词条进行归一化处理，包括：

利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。

5.根据权利要求2所述的垃圾邮件的识别方法，其特征在于，所述基准词频表采用如下方式获得：

在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件；所述历史邮件当中不包含垃圾邮件；

提取所述历史邮件各自的正文并分别进行分词，获得所述历史邮件各自的历史词条集；

按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条；

根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次，创建所述基准词频表。

6.根据权利要求5所述的垃圾邮件的识别方法，其特征在于，所述词条采集规则包括：