[发明专利]基于密度自适应过采样的垃圾邮件分类系统及方法有效

专利信息
申请号: 202111488827.8 申请日: 2021-12-07
公开(公告)号: CN114254997B 公开(公告)日: 2023-03-10
发明(设计)人: 张莉;魏真;赵雷;王邦军 申请(专利权)人: 苏州大学
主分类号: G06Q10/107 分类号: G06Q10/107;G06F18/2413;G06F18/22;G06F17/18
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 李柏柏
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 密度 自适应 采样 垃圾邮件 分类 系统 方法
【权利要求书】:

1.一种基于密度自适应过采样的垃圾邮件分类系统,其特征在于,包括:

数据输入模块,所述数据输入模块用于输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合,包括输入原始邮件数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,L,n},n是原始邮件数据集合中样本的总数,d是原始邮件数据集合的特征数,xi表示第i条邮件数据,yi是其标签,若yi=0,则xi为非垃圾邮件;若yi=1,则xi为垃圾邮件,令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即非垃圾邮件数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即垃圾邮件数据集合,其样本数记为nmin,令所需新生成的样本点个数为nnew=nmaj-nmin

过采样模块,所述过采样模块用于剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;

数据训练模块,所述数据训练模块用于将生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;

邮件识别模块,所述邮件识别模块用于接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果;

其中,所述过采样模块包括:

噪音样本点剔除子模块,其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ=[μ12,...,μd]T以及标准差σ=[σ12,...,σd]T,若对i∈[1,L,nmin],j=1,L,d,只要|xijj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到第一垃圾邮件数据集合D'min,其样本点个数记为n'min

样本密度计算子模块,其用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数,具体包括在第一垃圾邮件数据集合D'min中,对于样本点xi(xi∈D'min,i=1,L,n'min)寻找其K个同类近邻令表示样本点xi和其近邻之间的欧氏距离,则第一垃圾邮件数据集合中每个样本点的密度计算为得到D'min中每个样本点的密度之后,先对密度值大小进行归一化操作,即然后,再计算D'min中每个样本点周围应生成的样本点个数:Nnew(xi)=nnew×nor_density(xi)(i=1,L,n'min);

样本生成子模块,其用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合,具体包括由样本点xi∈D'min生成一个新样本第j个特征的方案:其中αj∈(0,1)是为第j个特征随机产生的生成系数,函数表示从xi的近邻集合中中随机选择一个近邻并取其第j个特征值,由此,在xi周围生成的新样本为:并将其加入到集合Dnew中,对样本点xi,需要在其周围生成Nnew(xi)个新样本,重复新样本生成的步骤即可;对D'min中的所有样本点,重复新样本生成的步骤,直到所有样本点都被遍历过,由此,得到第二垃圾邮件数据集合Dnew

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111488827.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top