[发明专利]基于支持向量机的垃圾邮件过滤方法无效
申请号: | 200710069593.7 | 申请日: | 2007-08-03 |
公开(公告)号: | CN101106539A | 公开(公告)日: | 2008-01-16 |
发明(设计)人: | 陆冠中;徐从富;王金龙 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06F17/30;G06Q10/00 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用支持向量机模型对新的邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整来保证正常邮件被误判为垃圾邮件的比率维持在较低的水平,并最终判定邮件是否为垃圾邮件。本发明利用了支持向量机所具有的单模型分类准确率最高的优点,综合利用了文本特征和行为特征,提高了垃圾邮件过滤的准确率,同时,还有效解决了垃圾邮件过滤时所面临的误判代价不对等问题。 | ||
搜索关键词: | 基于 支持 向量 垃圾邮件 过滤 方法 | ||
【主权项】:
1.一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用LibSVM和4)中得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710069593.7/,转载请声明来源钻瓜专利网。