[发明专利]一种对图像型垃圾邮件进行过滤的方法及装置有效

申请号：	201510316314.7	申请日：	2015-06-10
公开（公告）号：	CN104978579B	公开（公告）日：	2019-07-16
发明（设计）人：	严寒冰;李思远;刘亚姝;张洪刚;徐彬;张帅;徐原;高胜;胡俊	申请（专利权）人：	国家计算机网络与信息安全管理中心;北京邮电大学;北京建筑大学
主分类号：	G06K9/34	分类号：	G06K9/34
代理公司：	工业和信息化部电子专利中心 11010	代理人：	梁军
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种对图像型垃圾邮件进行过滤的方法及装置，通过WAF模型对邮件图像中识别出的关键词进行关键词重构，并基于重构后的关键词对邮件进行判断和过滤，从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
搜索关键词：	一种图像垃圾邮件进行过滤方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种对图像型垃圾邮件进行过滤的方法，其特征在于，包括：通过WAF模型对邮件图像中识别出的关键词进行关键词重构；基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤；所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤具体包括：通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词；通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和的步骤具体包括：通过WAF模型计算关键字之间的亲密度；根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和；计算关键字之间的亲密度的步骤具体包括：根据词激活力公式计算各个关键字之间的连接紧密度，并通过亲密度矩阵计算各个关键字之间亲密度之和；首先，根据训练文本建立一个关键字网状模型，该关键字网状模型基于WAF模型，描述各个关键字之间的相关性和激活度，通过权重计算即词激活力计算公式，衡量训练数据中的各个关键字连接紧密度：其中，f_i代表关键字i出现的频率，f_ij代表关键字i和关键字j一起出现的频率，d_ij代表两个关键字一起出现时的平均距离，根据计算结果，得到一个关键字网络矩阵A＝{af_ij}，利用这个矩阵计算各个关键字之间亲密度：其中，K_ij＝{k|af_ki＞0 or af_kj＞0}L_ij＝{l|af_li＞0 or af_lj＞0}OR(x,y)＝min(x,y)/max(x,y)，K_ij为关键字i、关键字j相同的前向关键字k的集合，L_ij为关键字i、关键字j相同后向关键字l的集合；根据训练模型，先根据样本语料库，建立关键字关联模型，根据该模型，得到两两关键字之间的亲密度矩阵；其次，根据前面得到的识别结果和训练产生的亲密度模型进行关键词重构，具体步骤如下：1)、将样本数据文本转化成由关键字组成的序列；2)、计算关键字在样本集中出现的频率，形成字表；3)、计算两个不同关键字共同出现的频率，形成关系字表；4)、计算不同关键字之间的WAF距离；5)、计算不同关键字之间的亲和度矩阵，完成训练部分；6)、使用光学字符识别OCR系统，对测试图片进行文字识别；7)、选取没有被识别的，但是能够和相邻的字组成关键词的字作为候选字；8)、在候选字中，计算其与周围的识别出的字的亲密度之和；9)、通过阈值判断是否能被激活，从而完成对关键词的重建。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京邮电大学;北京建筑大学，未经国家计算机网络与信息安全管理中心;北京邮电大学;北京建筑大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510316314.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对图像型垃圾邮件进行过滤的方法及装置有效

专利文献下载