[发明专利]过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性有效

申请号：	200810135499.1	申请日：	2008-08-12
公开（公告）号：	CN101374122A	公开（公告）日：	2009-02-25
发明（设计）人：	肖恩·库利	申请（专利权）人：	赛门铁克公司
主分类号：	H04L12/58	分类号：	H04L12/58;G06Q10/00
代理公司：	北京律诚同业知识产权代理有限公司	代理人：	徐金国
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	过滤训练语言内容中的贝叶斯担保校验减少阳性
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明通常涉及电子内容的贝叶斯过滤，并更具体地涉及当处理以非训练语言记载的电邮时，在贝叶斯垃圾电邮过滤中使用担保校验以减少假阳性。

背景技术

当前统计垃圾电邮的检测技术主要依靠在分类电子信息时寻找已知词汇的能力。垃圾电邮的发布者已意识到这一点，并经常在他们的信息中包括无意义(nonsense)的词汇。使用无意义的词汇以欺骗垃圾检测采取两种主要形式。第一种是向电邮中插入少量(例如，一或二个)的无意义词汇。这用于阻碍单个信息的复制备份(发送到一个因特网服务运营商的许多用户)的简单哈希检测。通过将不同的无意义词汇插入信息的每个备份，简单哈希检测程序不能确定该信息是复制的。这种无意义的词汇插入的形式称为“哈希破坏法”。第二种形式由向电邮中插入更多的无意义词汇所组成。该词汇作为组合造成整体信息的误分类。

垃圾电邮分类引擎基于诸如贝叶斯分析的各种统计技术来分析电邮信息的内容并试图确定哪些邮件是垃圾。贝叶斯垃圾过滤是基于出现在垃圾或合法电邮中的具体词汇的已建立的概率。例如，上述的无意义词汇以及诸如“伟哥(Viagra)”、“再筹款(Refinance)”、“抵押(Mortgage)”等的特定词汇频繁出现在垃圾中，而很少或不常出现在合法电邮中。因此，这些术语的出现增加了电邮成为垃圾的概率。贝叶斯垃圾分类引擎对这些概率没有原有的知识，而相反通过由电邮信息集合训练而建立这些概率。

当使用诸如贝叶斯法的统计方法分类文档时，分类输出的可靠性只和输入一样(output is as good as input)。这在统计分类器遇到以该分类器没有受训的语言记载的信息时(例如，当以英语受训的分类器试图分类德文文档时)，就产生了问题。更具体地，与无意义词汇相反或除了无意义词汇以外，垃圾邮件发布者在垃圾电邮中插入外语词汇或短语已变得很普遍。这经常导致某些常用的外语词汇(例如，“el”、“los”、“der”、“die”、“und”等)被分类引擎分类为与垃圾电邮相关。因为这些词汇出现在许多垃圾电邮中但实际上不出现在以英语写成的合法电邮中，用英语数据集训练的贝叶斯分类引擎将把它们在电邮信息中的出现解释为包括垃圾的信息的强烈指示。

过去，已提出两种不同方式用于非训练语言中的内容的问题。一种方法是使用能确定文档语言的二级分类器。对贝叶斯垃圾过滤器的输入随后被限制为以其已经被训练的语言记载的内容。第二种方法是使贝叶斯过滤器尝试分类每个文档而不论语言。

第一种方法在金钱和计算效率上都是昂贵的。为了通过语言分类每个文档，必须注册或构建昂贵的语言分类引擎以仅仅确定垃圾引擎是否应监视输入的信息。而且，用其他引擎分类每个输入的电邮是耗时的，并减慢垃圾过滤处理。

在垃圾的范围中，当过滤以贝叶斯过滤器没有受训的语言记载的电邮时，第二种方法通常导致极高的假阳性率。如上所指出，以未训练的外语记载的非常常用的词汇可能在垃圾的训练数据中很普遍。例如，当用英语记载的电邮集训练时，类似“und”和“der”的词汇经常出现在垃圾中并几乎不出现在合法电邮中。然而，当处理德文电邮时，这些词汇几乎出现在无论是垃圾或合法的每个信息中。因此，以英语而不是德语训练的分类器会将所有或大多数德文电邮分类为垃圾。

当处理以贝叶斯过滤器没有受训的语言记载的内容时，期望能不必须使用能确定文档语言的昂贵的二级分类器而避免该过量的假阳性率。

发明概述

特殊处理允许极大地改进以外语记载的电邮信息的贝叶斯垃圾过滤。贝叶斯垃圾过滤器确定输入的电邮信息中由训练知道的内容量。如果过滤器了解该内容的阈值量，则过滤器将该将电邮信息进行分类为垃圾或合法。另一方面，如果过滤器经训练所知道的电邮中的词汇不够，则过滤器不能准确确定该信息是否是垃圾。当电邮信息是以过滤器没有被训练的语言写成时通常是这一情形。对该情形，分类器分类该信息为类型未知。按需要可以使用不同的阈值矩阵，诸如已知电邮中词汇的百分比，以及在电邮的贝叶斯处理中使用的最大校正值的百分比。

根据本发明的一个方面，一种用于在贝叶斯过滤中减少假分类的计算机实施的方法包括如下步骤：

在贝叶斯过滤的范围中，分析要被分类的至少一个文档的内容；

确定所述至少一个文档中是否已知大于阈值量的内容；以及

响应所确定的结果来分类所述文档，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赛门铁克公司，未经赛门铁克公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810135499.1/2.html，转载请声明来源钻瓜专利网。

上一篇：用于独立于照明器进行颜色测量的设备和方法
下一篇：一种天文望远镜数码转接器

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性有效

专利文献下载