[发明专利]一种语义关联词判断垃圾邮件的方法有效
申请号: | 201910312461.5 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110048936B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 汪齐顺 | 申请(专利权)人: | 宁波青年优品信息科技有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06K9/62 |
代理公司: | 东莞市神州众达专利商标事务所(普通合伙) 44251 | 代理人: | 周松强 |
地址: | 315100 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 关联词 判断 垃圾邮件 方法 | ||
本发明公开了一种语义关联词判断垃圾邮件的方法,涉及网络安全领域。本发明包括:获取大量正常邮件和垃圾邮件进行自动语义关联词标注;将大量标注完成的邮件存储至邮件本体库;使用SVM算法对所有标注样本进行分类,并生成垃圾邮件的强分类器;当系统监测到邮箱内出现未读邮件时,启动垃圾邮件检索服务;服务获取未读邮件内容,对邮件中的图像进行基元提取、邮件中的文本进行语义关联词提取并导入垃圾邮件强分类器进行判断。本发明通过系统实时监测用户邮箱中未读邮件,利用正负样本图片对未读邮件中的图片进行判断,再利用语义关联词生成的垃圾邮件强分类器进行判断,避免了垃圾邮件泛滥,提高了用户的网络体验。
技术领域
本发明属于网络安全领域,特别是涉及一种语义关联词判断垃圾邮件的方法。
背景技术
随着因特网的普及,电子邮件作为因特网提供的一项基本服务也日益得到广泛使用。但是,随之而来的垃圾邮件也越来越猖獗。根据中国互联网络信息中心2004年1月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占据了7.9封,垃圾邮件数量超过了正常邮件数量,并有进一步增长的趋势。邮件信箱里充满了垃圾邮件,以至于电子邮件使用者需要花费大量时间才能找出一封合法邮件。垃圾邮件已经严重影响了电子邮件正常使用。虽然,目前设计了多种方法,企图阻止垃圾邮件的传播,但是均被垃圾邮件发送者一一绕过。另外,在使用各种识别垃圾邮件的工具时,使用者往往担心大量合法邮件被错误地识别为垃圾邮件,比如实时黑名单(RBL,Realtime Black List),在阻挡了垃圾邮件的同时,将部分用户的合法邮件据之门外。目前没有一种方法能够完全令人满意。
垃圾邮件大规模爆发的原因是简单邮件传输协议(SMTP)本身的缺陷,即SMTP协议缺少确认电子邮件发送者身份的全面手段。通过伪造回复地址以及利用受到侵入的计算机等方式来掩饰身份,发送垃圾邮件非常容易。但是修改或者替换SMTP协议,需要投入巨额资金。另外垃圾邮件发送成本低廉,使得一部分企业或者网站以发送邮件的方式进行宣传,以获取自己私利。他们通过各种途径获取电子邮件地址,比如从一部分不道德的网络服务提供商或者网站的拥有者购买用户或者第三方的电子邮件地址列表,或者通过程序自动地从万维网网页上获取邮件地址;甚至,通过排列组合的方法生成成千上百万个英文字符串作为用户的邮件地址,然后利用程序自动发送。垃圾邮件的常见内容包括:赚钱信息、成人广告、商业或个人网站广告、电子杂志、连环信等。部分垃圾邮件甚至还附带有病毒。如果用户不经意打开这些邮件,导致泄漏机密或者破坏机器,造成重大损失。因此垃圾邮件对绝大部分用户来说,没有任何价值,反而增加了用户负担,为了从一大堆垃圾邮件中找出合法邮件,浪费大量的时间和精力。
垃圾邮件的内容特征鲜明,用词非常接近或者相近,具有一定的普遍性。但是对于合法邮件,由于用户处于不同的行业,各行各业都有自己的专门术语,因此具有专有性。在无法变动SMTP协议的情况下,一方面希望通过法律来约束或者惩罚垃圾邮件发送者,另一方面期待一种能自动识别垃圾邮件的方法,使得在保护合法邮件未被误判为垃圾邮件地情况下,使因特网用户从垃圾邮件中解脱出来。
发明内容
本发明的目的在于提供一种语义关联词判断垃圾邮件的方法,通过系统实时监测用户邮箱中未读邮件,利用正负样本图片对未读邮件中的图片进行判断,再利用语义关联词生成的垃圾邮件强分类器进行判断,解决了现有的垃圾邮件泛滥、增加用户负担的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种语义关联词判断垃圾邮件的方法,包括如下步骤:
步骤S1:获取大量正常邮件和垃圾邮件进行自动语义关联词标注;
步骤S2:将大量标注完成的邮件存储至邮件本体库;
步骤S3:使用SVM算法对所有标注样本进行分类,并生成一个垃圾邮件的强分类器;
步骤S4:系统对用户邮箱进行实时监控;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波青年优品信息科技有限公司,未经宁波青年优品信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910312461.5/2.html,转载请声明来源钻瓜专利网。