[发明专利]一种基于MPI的分布式ADMM垃圾邮件分类方法在审

申请号：	202111477718.6	申请日：	2021-12-06
公开（公告）号：	CN114154581A	公开（公告）日：	2022-03-08
发明（设计）人：	肖明霏;刘龙恩;王慧慧;周沧琦	申请（专利权）人：	南京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00;H04L51/212;H04L51/42
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mpi 分布式 admm 垃圾邮件分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于MPI的分布式ADMM垃圾邮件分类方法，其特征在于，包括如下步骤：

步骤1、将文本数据向量化为数字格式的数据集；

步骤2、将数据集分割为训练集和测试集，对训练集进行过采样处理，再分割为若干份分别保存在若干个从节点上；

步骤3、MPI并行执行所有节点上的代码，从节点并行更新局部模型；

步骤4、主节点通过MPI规约功能汇总从节点的局部模型；

步骤5、主节点更新全局模型，并利用MPI广播功能将全局模型分发到各个从节点；

步骤6、循环交替更新从节点和主节点的模型，直到满足终止条件；

步骤7、保存主节点的全局模型作为分类器模型；

步骤8、利用训练得到的分类器模型对测试集进行分类，输出分类结果。

2.根据权利要求1所述的一种基于MPI的分布式ADMM垃圾邮件分类方法，其特征在于，步骤1利用NLP技术，将文本数据向量化为数字格式的数据集；处理后的数据集表示为其中n为样本数量，x_i为第i个d维的样本数据向量，y_i为第i个样本标签，R^d表示d维的实数集，i取值1～n；使用L2正则化的L2损失支持向量机SVM作为线性分类模型，目标函数表示为:

其中C0是一个超参数，用来控制正则项和损失项比重关系，w是分类模型变量，且w∈R^d；

使用SMOTE算法对训练集过采样处理使得训练集中正样本和负样本数量相当，接着再分割为若干份分别保存在若干个从节点上。

3.根据权利要求2所述的一种基于MPI的分布式ADMM垃圾邮件分类方法，其特征在于，步骤2将数据集按照4：1的比例分割为训练集和测试集，并分割为若干份分别保存在若干台从节点上，同时复制代码文件到若干个从节点，假设数据被存在了m个节点(D₁,D₂,…,D_m)上，式(1)改写为：

s.t.w_j-z＝0,j＝1,…,m

其中ρ是一个超参数，w_j是第j个从节点的局部模型变量，z是在主节点上更新的全局模型变量，且z∈R^d；

将式(2)改写成增广拉格朗日形式得到式(3)，即：

其中θ_j是第j个从节点的模型对偶变量。

4.根据权利要求3所述的一种基于MPI的分布式ADMM垃圾邮件分类方法，其特征在于，步骤3中MPI并行执行所有节点上的代码，通过mpiexec命令完成；

主节点上随机初始化全局模型变量z，各从节点上随机初始化局部模型变量w_j及其对偶变量θ_j，初始化为全零；从节点并行更新局部模型变量，由ADMM算法更新规则得到，w,z,θ按如下公式迭代更新：

其中k是迭代次数，拉格朗日函数L(w,z,θ)对于w_j可分解；在各个从节点上并行地解决公式(4)来更新局部模型变量w_j：

5.根据权利要求4所述的一种基于MPI的分布式ADMM垃圾邮件分类方法，其特征在于，步骤4中主节点通过MPI规约功能汇总从节点的局部模型，通过如下代码创建MPI的通信子comm：

comm＝MPI.COMM_WORLD，

其中COMM_WORLD是MPI的内置对象，接着利用通信子实现规约功能，表示如下：

comm.Reduce(sendbuf,recvbuf,Op,root)

其中Reduce是规约函数，sendbuf表示从节点发送的内容，传入局部模型变量及其对偶变量recvbuf表示主节点用于接收的变量，Op表示具体规约的操作函数，使用MPI.SUM函数，表示将从节点的值相加后传给主节点，root表示根节点序号，传入主节点序号0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111477718.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种乘梯控制方法、装置、电子设备和存储介质
下一篇：一种半导体制造的流程卡管理方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MPI的分布式ADMM垃圾邮件分类方法在审

专利文献下载