[发明专利]Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法有效

专利信息
申请号: 201810331615.0 申请日: 2018-04-13
公开(公告)号: CN108549692B 公开(公告)日: 2021-05-11
发明(设计)人: 雷大江;杜萌;陈浩;张莉萍;吴渝;杨杰;程克非 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/182;G06F40/289
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 贾允;肖丁
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: spark 框架 稀疏 多元 逻辑 回归 模型 文本 情感 分类 方法
【权利要求书】:

1.Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法,其特征在于,所述方法包括:

将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;

Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;

Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;

利用经过预处理变换的RDD训练稀疏多元逻辑回归模型,将稀疏多元逻辑回归模型的凸优化问题转化为共享问题;采用ADMM算法求解共享问题,得到稀疏多元逻辑回归模型参数的迭代公式;将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算,得到稀疏多元逻辑回归分类器;

保存所述稀疏多元逻辑回归分类器,将所述稀疏多元逻辑回归分类器输出到HDFS分布式文件系统中;

将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;

从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器;

利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;

在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中;

所述将稀疏多元逻辑回归模型的凸优化问题转化为共享问题,包括:

将所述稀疏多元逻辑回归模型的凸优化问题中的高维特征数据集,分解为包含多个子特征的数据集,使所述稀疏多元逻辑回归的凸优化问题转化为共享问题;

在共享问题中按特征分割数据集;所述数据集表示为D={D1,D2,…,DN},其中,N表示数据分块数,ni表示第i个数据块的大小;

所述稀疏多元逻辑回归的凸优化问题为:

其中:1{y(i)=j}为示性函数,当y(i)=j时取值为1,反之为0;λ表示正则项参数,且λ>0;W为稀疏多元逻辑回归对应的参数;

稀疏多元逻辑回归模型的凸优化问题所转化得到的共享问题为:

s,t.DiWi-Zi=0,i=1,...,N

其中,为第i个数据块下的模型参数分量,且Zi∈Rm×k为第i个数据块下的模型参数分量;

所述稀疏多元逻辑回归模型参数的迭代公式为:

其中,Wi∈Rn×k,为模型参数分量;为模型参数分量的均值;Ui是引入的拉格朗日乘子变量,为第i个数据块下的对偶变量。

2.根据权利要求1所述的方法,其特征在于,所述将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算,得到稀疏多元逻辑回归分类器;包括:

引入模型参数分量的均值将稀疏多元逻辑回归模型参数分量wij+1的计算,分发到不同的计算节点;

对计算得到的模型参数分量做平均操作;并将的值分发到不同的计算节点,进行并行计算;

当模型参数收敛到一定程度,停止迭代计算;此时得到的Wi和Zi为最终得到的模型参数的分量。

3.根据权利要求1所述的方法,其特征在于,所述利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;包括:

从HDFS分布式文件系统中加载待预测文本数据集和稀疏多元逻辑回归分类器;

将待预测文本数据集输入到稀疏多元逻辑回归分类器中,得到待预测文本的分类结果。

4.根据权利要求3所述的方法,其特征在于,

所述稀疏多元逻辑回归分类器为:

其中,W为各计算节点并行优化后得到的模型参数,x为待预测文本的数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810331615.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top