[发明专利]基于滑动窗口的邮件指纹提取方法及邮件相似判断方法有效
申请号: | 201110255082.0 | 申请日: | 2011-08-31 |
公开(公告)号: | CN102323934A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 翁善锦;戚国飞;汪志新;丁德平 | 申请(专利权)人: | 深圳市彩讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科吉华烽知识产权事务所 44248 | 代理人: | 胡吉科;许建 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 滑动 窗口 邮件 指纹 提取 方法 相似 判断 | ||
技术领域
本发明涉及一种邮件指纹提取方法及邮件相似判断方法,尤其涉及一种基于滑动窗口的邮件指纹提取方法及邮件相似判断方法。
背景技术
垃圾邮件(Spam)一直是邮件系统中的热点问题,但一直没有一个很明确的定义。人们经过研究发现垃圾邮件有一个明显的特征:重复大量地发送内容相似或相同的邮件。针对这个特征,人们使用一系列的手段来拒收垃圾邮件。
通过监控邮件重复发送次数,并设计一个阀值,当投递次数大于这个阀值时,从而判断该邮件很可能是垃圾邮件。
通过比较邮件指纹(Mail FingerPrint ,邮件指纹,简称“MFP”)来判断邮件是否是垃圾邮件。对已确定的垃圾邮件生成指纹(FingerPrint ,指纹,简称“FP”)并保存,将新邮件的指纹与其相比较,从而判断邮件是否为垃圾邮件。
目前反垃圾应用的邮件指纹算法,对生成的指纹大小不可控,指纹与邮件正文成正比。这对系统的存储要求比较高,并且邮件指纹匹配的性能也会随着指纹及邮件正文增大而降低。另外现有算法对邮件正文的误判率也较高,会将两封不同的邮件正文匹配为一致。
发明内容
本发明解决的技术问题是:提供一种基于滑动窗口的邮件指纹提取方法,克服现有技术对邮件正文误判率较高的技术问题。
本发明的技术方案是:提供一种基于滑动窗口的邮件指纹提取方法,包括如下步骤:
扫描邮件正文:应用滑动窗口扫描邮件正文;
获取邮件正文摘要信息的指纹:根据滑动窗口指数加权的指纹算法,采用多个字节来保存邮件正文的摘要信息,每一个字节保存根据加权指数及邮件正文长度确定的邮件正文序列块条件的邮件正文摘要信息,获取该多个字节的邮件正文摘要信息序列值, 该邮件正文摘要信息序列值为邮件正文摘要信息的指纹;
获取邮件正文的指纹:根据滑动窗口三元组统计的语义相似度算法,设置滑动窗口构造三元组的长度,根据滑动窗口构造的三元组长度构建邮件正文的三元组,采用Hash算法求出每个邮件正文三元组的值,以邮件正文三元组的值作为数组保存邮件正文所有三元组的统计,得到邮件指纹的保存数组信息;根据数组统计的平均值设立阀值,将统计大于阀值的数组下标所对应的保存数组位设为1,采用多个字节来保存表示邮件正文所有三元组的统计保存数组值,该多个字节保存的表示邮件正文所有三元组的统计保存数组值为当前邮件正文的指纹;
提取邮件的指纹:将邮件正文摘要信息的指纹和邮件正文的指纹作为该邮件的指纹。
本发明的进一步技术方案是:在获取邮件正文摘要信息的指纹步骤中,所述滑动窗口的长度为1至30。
本发明的进一步技术方案是:在获取邮件正文摘要信息的指纹步骤中,采用8个字节来保存邮件正文的摘要信息。
本发明的进一步技术方案是:在获取邮件正文摘要信息的指纹步骤中,每一个字节保存的邮件正文摘要信息为该邮件正文摘要信息右移加权指数位数并取8位。
本发明的进一步技术方案是:在获取邮件正文的指纹步骤中,所述滑动窗口构造三元组的长度为5。
本发明的进一步技术方案是:在获取邮件正文的指纹步骤中,由滑动窗口块构造出8个三元组,采用32个字节来保存邮件正文的指纹。
本发明的进一步技术方案是:在获取邮件正文的指纹步骤中,采用32个字节来保存256位字节数组表示邮件正文的指纹。
本发明的技术方案是:提供一种邮件相似判断方法,包括如下步骤:
提取邮件指纹:提取基于滑动窗口的邮件正文摘要信息的指纹,所述邮件指纹包括邮件正文摘要信息的指纹和邮件正文的指纹。
邮件相似性的判断:分别将两封邮件中邮件摘要的指纹以及邮件正文的指纹进行比较,根据比较结果的相似性判断该两封邮件是否相似。
本发明的进一步技术方案是:在邮件相似性的判断步骤中,对于两封邮件摘要的指纹相等的字节大于等于7以及两封邮件正文的指纹相似度大于90%,则判断两封邮件正文相同。
本发明的技术效果是:采用基于滑动窗口的邮件指纹提取方法及邮件指纹来判断邮件的相似性程度,在提取邮件指纹过程中,采用滑动窗口块的方法提取邮件正文摘要信息指纹及邮件正文指纹的方法提取邮件指纹,本发明通过获取两种指纹来获取邮件指纹,既提高了邮件差别的准确性,又减少了保存的指纹值,大大方便了邮件相似性的判别,对垃圾邮件的处理效果更好。
附图说明
图1为本发明邮件指纹提取的流程图。
图2为本发明邮件摘要指纹滑动窗口块结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市彩讯科技有限公司,未经深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110255082.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有叠加准周期条阵结构的声表面波器件
- 下一篇:一种蒸馏塔进料分布器