[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审
申请号: | 201810521174.0 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108763449A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 张凌;张启华;张晶;徐傲雪;黄康泉 | 申请(专利权)人: | 华南理工大学;赛尔网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/08;H04L12/58 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种垃圾邮件过滤的中文关键词规则生成方法,该方法主要包括从邮件集中获取关键词候选词、特征提取得到关键词、获取关键词规则触发情况、为关键词规则赋分值四个步骤,对比当前技术,本发明提出的方法改进了关键词特征提取方法,结合词频和文档频率的特征提取方法降低通用词汇的影响,使用神经网络算法计算规则分值,比较遗传算法降低了学习的开销。本发明解决当前中文关键词规则时效性不足,并且能够根据一个特定的用户群体对于垃圾邮件的定义以及提供的邮件数据集生成最符合用户特征的关键词规则。 | ||
搜索关键词: | 垃圾邮件过滤 规则生成 特征提取 中文 神经网络算法 词频 关键词特征 规则触发 计算规则 垃圾邮件 通用词汇 遗传算法 用户群体 用户特征 邮件集中 邮件数据 候选词 时效性 改进 学习 | ||
【主权项】:
1.一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词,通过结合词频和文档频率的特征提取方法选定关键词,进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况,并且使用此触发情况作为神经网络算法的输入,通过随机下降方法训练神经网络直到过滤效果收敛,将训练得到的权重转化为规则的分数,最终得到的规则即可应用于基于规则的邮件过滤的解决方案中;其具体包括以下步骤:1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合;2)对候选词集合的全部词汇统计词频、文档频率,通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词;3)收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据;4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;赛尔网络有限公司,未经华南理工大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810521174.0/,转载请声明来源钻瓜专利网。