[发明专利]集体环境下的个性化邮件再过滤方法在审
申请号: | 201810822625.4 | 申请日: | 2018-07-23 |
公开(公告)号: | CN110753024A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 陈松灿;徐丹丹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/58 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 由于兴趣、爱好的不同,用户对垃圾邮件的定义存在巨大差异,因此实现个性化垃圾邮件过滤成为目前邮件过滤领域研究的重要课题。但完全个性化条件下,特定用户的标记邮件量有限,也使个性化过滤器存在标记延迟问题。同时,相同集体(学校、学院或公司)环境中的用户收到的邮件存在一定的相关性,所以完全个性化邮件过滤器学到的信息有限。当出现邮件错滤情况,用户不得不手动修改,这给用户体验带来了极大不便。为了有效解决上述问题,本发明提出在集体环境下的个性化邮件再过滤方法,并实现个性化邮件过滤及错滤邮件自动修改等功能,本发明设置集体环境下用户共享垃圾邮件,并结合规则和统计方法提出了一种基于客户端的个性化邮件再过滤系统。 | ||
搜索关键词: | 个性化邮件 集体环境 垃圾邮件 过滤 个性化 个性化过滤器 垃圾邮件过滤 过滤器 标记延迟 过滤系统 领域研究 手动修改 用户共享 用户体验 邮件过滤 有效解决 重要课题 自动修改 爱好 客户 统计 | ||
【主权项】:
1.一种集体环境下的个性化邮件再过滤方法,其特征在于,包括以下步骤:/n第一步,同一集体的用户量固定,一旦有垃圾邮件被分享出来,首先检测该垃圾邮件是否与集体垃圾箱中的邮件重复,若重复,则更新该邮件的被举报率;否则将该邮件添加到集体垃圾箱中。/n第二步,设定将具有较高举报率的邮件陆续放入到特定用户的私人垃圾箱中,由Co-PRFC根据用户兴趣度检测其是否为垃圾邮件。如果是,则将其投进垃圾箱;否则,投进收件箱。/n第三步,一般采用机器学习方法过滤垃圾邮件,需要将邮件解析、数据预处理和向量化等,消耗大量的时间,所以Co-PRFC结合规则和统计方法过滤垃圾邮件,降低计算复杂度,缩短过滤时间。对于待预测邮件,首先检测其发件人是否可信,是则放入收件箱;否则根据邮件主题是否包含“re”或“回复”字段判断其是否是正常邮件,若不是则依次向量化主题和邮件正文,判断其类别(如图2所示)。/n第四步,针对的问题是错分情况,采用两个过滤器(Filter_junkbox和Filter_inbox)分别对垃圾箱数据流和收件箱数据流过滤。将垃圾箱数据流和收件箱数据流向量化的主题和正文分别作为Filter_junkbox和Filter_inbox的输入变量。但是分开过滤会出现“广义虚漂移”中第(2)点情况,本发明基于多任务学习(Multi-task Learning)理论,借鉴彼此的特征描述,让两个过滤器“互相学习,分别过滤”缓解类不平衡问题。/n第五步,随着时间推移,特定用户兴趣点也会发生变化,所以本发明设计多窗口学习框架(有真实标记窗口:长窗口LW,短窗口SW;无真实标记窗口:目标窗口TW),通过子模型L和S对长短窗口邮件的预测精确度检测兴趣是否发生变化,若发生变化,则用S重置L模型。LW代表由上一次模型更新之后的所有样本集内容,而SW保存近期固定数量的样本,所以当L的误差率低于S,说明当前用户的兴趣点稳定,否则表示用户兴趣点在近期发生变化。/n第六步,本发明通过核密度比
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810822625.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种设备认证方法、设备访问方法和装置
- 下一篇:大数据安全访问控制方法