[发明专利]一种垃圾邮件的识别方法、装置以及电子设备有效
申请号: | 201710085329.6 | 申请日: | 2017-02-17 |
公开(公告)号: | CN108462624B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 沈朝阳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 识别 方法 装置 以及 电子设备 | ||
1.一种垃圾邮件的识别方法,其特征在于,包括:
提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;
结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;
判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件,若所述噪音字符占比小于或者等于所述噪音字符占比阈值,则执行下述操作:判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间,若是,获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值,若大于,将所述待识别邮件识别为垃圾邮件。
2.根据权利要求1所述的垃圾邮件的识别方法,其特征在于,所述噪音字符包括下述至少一项:
非文字字符、单个字符以及稀疏词。
3.根据权利要求2所述的垃圾邮件的识别方法,其特征在于,所述提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集步骤执行后,且所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比步骤执行前,执行下述步骤:
对获得的所述词条集当中的词条进行归一化处理。
4.根据权利要求3所述的垃圾邮件的识别方法,其特征在于,所述对获得的所述词条集当中的词条进行归一化处理,包括:
利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。
5.根据权利要求2所述的垃圾邮件的识别方法,其特征在于,所述基准词频表采用如下方式获得:
在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件;
提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;
按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;
根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。
6.根据权利要求5所述的垃圾邮件的识别方法,其特征在于,所述词条采集规则包括:
采集所述历史词条集当中的文字字符,丢弃所述历史词条集当中的非文字字符,和/或,采集所述历史词条集当中的外文词条;
其中,所述外文词条是指利用预设归一化算法进行归一化处理后的外文词条。
7.根据权利要求5所述的垃圾邮件的识别方法,其特征在于,所述基准词条初始的出现频次为0,并且每存在一封正文中出现所述基准词条的历史邮件,所述基准词条的出现频次加1。
8.根据权利要求5所述的垃圾邮件的识别方法,其特征在于,针对所述待识别邮件的正文进行分词,以及针对所述历史邮件各自的正文分别进行分词,基于相同的分词算法实现。
9.根据权利要求2所述的垃圾邮件的识别方法,其特征在于,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:
针对所述词条集当中的每一个词条,执行如下操作:
判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符。
10.根据权利要求2所述的垃圾邮件的识别方法,其特征在于,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:
针对所述词条集当中的每一个词条,执行如下操作:
通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若是,当前词条为噪音字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710085329.6/1.html,转载请声明来源钻瓜专利网。