[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审

申请号：	201810521174.0	申请日：	2018-05-28
公开（公告）号：	CN108763449A	公开（公告）日：	2018-11-06
发明（设计）人：	张凌;张启华;张晶;徐傲雪;黄康泉	申请（专利权）人：	华南理工大学;赛尔网络有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06N3/08;H04L12/58
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种垃圾邮件过滤的中文关键词规则生成方法，该方法主要包括从邮件集中获取关键词候选词、特征提取得到关键词、获取关键词规则触发情况、为关键词规则赋分值四个步骤，对比当前技术，本发明提出的方法改进了关键词特征提取方法，结合词频和文档频率的特征提取方法降低通用词汇的影响，使用神经网络算法计算规则分值，比较遗传算法降低了学习的开销。本发明解决当前中文关键词规则时效性不足，并且能够根据一个特定的用户群体对于垃圾邮件的定义以及提供的邮件数据集生成最符合用户特征的关键词规则。
搜索关键词：	垃圾邮件过滤规则生成特征提取中文神经网络算法词频关键词特征规则触发计算规则垃圾邮件通用词汇遗传算法用户群体用户特征邮件集中邮件数据候选词时效性改进学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种垃圾邮件过滤的中文关键词规则生成方法，其特征在于：该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词，通过结合词频和文档频率的特征提取方法选定关键词，进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况，并且使用此触发情况作为神经网络算法的输入，通过随机下降方法训练神经网络直到过滤效果收敛，将训练得到的权重转化为规则的分数，最终得到的规则即可应用于基于规则的邮件过滤的解决方案中；其具体包括以下步骤：1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合；2)对候选词集合的全部词汇统计词频、文档频率，通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词；3)收集邮件数据集中每封邮件的关键词触发情况，并格式化触发情况数据；4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学;赛尔网络有限公司，未经华南理工大学;赛尔网络有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810521174.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于物联网的电子信息的发布方法
下一篇：一种互联网的浏览器数据的分享方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审

专利文献下载