[发明专利]基于密度自适应过采样的垃圾邮件分类系统及方法有效
| 申请号: | 202111488827.8 | 申请日: | 2021-12-07 |
| 公开(公告)号: | CN114254997B | 公开(公告)日: | 2023-03-10 |
| 发明(设计)人: | 张莉;魏真;赵雷;王邦军 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06Q10/107 | 分类号: | G06Q10/107;G06F18/2413;G06F18/22;G06F17/18 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李柏柏 |
| 地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 密度 自适应 采样 垃圾邮件 分类 系统 方法 | ||
1.一种基于密度自适应过采样的垃圾邮件分类系统,其特征在于,包括:
数据输入模块,所述数据输入模块用于输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合,包括输入原始邮件数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,L,n},n是原始邮件数据集合中样本的总数,d是原始邮件数据集合的特征数,xi表示第i条邮件数据,yi是其标签,若yi=0,则xi为非垃圾邮件;若yi=1,则xi为垃圾邮件,令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即非垃圾邮件数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即垃圾邮件数据集合,其样本数记为nmin,令所需新生成的样本点个数为nnew=nmaj-nmin;
过采样模块,所述过采样模块用于剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
数据训练模块,所述数据训练模块用于将生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
邮件识别模块,所述邮件识别模块用于接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果;
其中,所述过采样模块包括:
噪音样本点剔除子模块,其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ=[μ1,μ2,...,μd]T以及标准差σ=[σ1,σ2,...,σd]T,若对i∈[1,L,nmin],j=1,L,d,只要|xij-μj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到第一垃圾邮件数据集合D'min,其样本点个数记为n'min;
样本密度计算子模块,其用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数,具体包括在第一垃圾邮件数据集合D'min中,对于样本点xi(xi∈D'min,i=1,L,n'min)寻找其K个同类近邻令表示样本点xi和其近邻之间的欧氏距离,则第一垃圾邮件数据集合中每个样本点的密度计算为得到D'min中每个样本点的密度之后,先对密度值大小进行归一化操作,即然后,再计算D'min中每个样本点周围应生成的样本点个数:Nnew(xi)=nnew×nor_density(xi)(i=1,L,n'min);
样本生成子模块,其用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合,具体包括由样本点xi∈D'min生成一个新样本第j个特征的方案:其中αj∈(0,1)是为第j个特征随机产生的生成系数,函数表示从xi的近邻集合中中随机选择一个近邻并取其第j个特征值,由此,在xi周围生成的新样本为:并将其加入到集合Dnew中,对样本点xi,需要在其周围生成Nnew(xi)个新样本,重复新样本生成的步骤即可;对D'min中的所有样本点,重复新样本生成的步骤,直到所有样本点都被遍历过,由此,得到第二垃圾邮件数据集合Dnew。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111488827.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





