[发明专利]一种语义关联词判断垃圾邮件的方法有效
申请号: | 201910312461.5 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110048936B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 汪齐顺 | 申请(专利权)人: | 宁波青年优品信息科技有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06K9/62 |
代理公司: | 东莞市神州众达专利商标事务所(普通合伙) 44251 | 代理人: | 周松强 |
地址: | 315100 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 关联词 判断 垃圾邮件 方法 | ||
1.一种语义关联词判断垃圾邮件的方法,其特征在于,包括如下步骤:
步骤S1:获取大量正常邮件和垃圾邮件进行自动语义关联词标注;
步骤S2:将大量标注完成的邮件存储至邮件本体库;
步骤S3:使用SVM算法对所有标注样本进行分类,并生成一个垃圾邮件的强分类器;
步骤S4:系统对用户邮箱进行实时监控;
步骤S5:当监测到邮箱内出现未读邮件时,系统启动垃圾邮件检索服务;
步骤S6:服务获取未读邮件内容,对邮件中的图像进行基元提取、邮件中的文本进行语义关联词提取;
步骤S7:将提取出的基元属性和语义关联词导入垃圾邮件强分类器进行判断;
步骤S8:当判断出是垃圾邮件时,直接将邮件删除或拉至黑名单;
步骤S9:当判断是正常邮件时,将提醒用户进行查收;
所述步骤S1中,自动语义关联词标注包括两个部分:
第一部分为训练阶段;所述训练阶段包括如下步骤:
步骤S11:训练邮件图像集以及邮件描述文本;
步骤S12:抓取邮件的文本语义关联词信息;
步骤S13:提取邮件中图像基元进行聚类;
步骤S14:通过机器对图像的基元类和文本语义关联词信息进行统计学习获取邮件属性;
第二部分为图像标注阶段;所述图像标注阶段包括如下步骤:
步骤S21:获取待处理的邮件图像集以及文本描述;
步骤S22:提取邮件中图像基元进行一次标注获得邮件属性;
步骤S23:抓取邮件的文本语义关联词信息;
步骤S24:利用文本语义关联词信息对图像基元进行二次标注获得图像概念。
2.根据权利要求1所述的一种语义关联词判断垃圾邮件的方法,其特征在于,所述步骤S7中,垃圾邮件强分类器对语义关联词判断通过相似度比对来确定,具体公式如下:
其中,d(Ci)和d(Cj)分别是指概念Ci和Cj所对应本体树节点在树中的层次,Dist(Ci,Cj)是指Ci和Cj节点之间最短路径上所有带权边的权值和;CE(Ci,Cj)是Ci和Cj节点之间最短路径上所有边的条数;Dep是指本体书的最大深度;R(Ci,Cj)的值越接近1,则表示相似度越高。
3.根据权利要求1所述的一种语义关联词判断垃圾邮件的方法,其特征在于,所述步骤S13中,对邮件中图像基元进行聚类采用直方图表示,每个特征表示本身是一个由多个分量组成的矢量,而语义向量则表示向量中的每个分量在图像基元中的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波青年优品信息科技有限公司,未经宁波青年优品信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910312461.5/1.html,转载请声明来源钻瓜专利网。