[发明专利]Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法有效

申请号：	201810331615.0	申请日：	2018-04-13
公开（公告）号：	CN108549692B	公开（公告）日：	2021-05-11
发明（设计）人：	雷大江;杜萌;陈浩;张莉萍;吴渝;杨杰;程克非	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/182;G06F40/289
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	贾允;肖丁
地址：	400065***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法，包括：将训练样本数据集存储于HDFS中；Spark平台从HDFS中读取数据生成RDD；Spark平台将数据的预处理任务分为多个任务组，对每个任务组中存储有读取数据的RDD进行预处理，将预处理的结果存入HDFS中；训练稀疏多元逻辑回归模型，经过求解得到稀疏多元逻辑回归分类器；将所述稀疏多元逻辑回归分类器输出到HDFS中；从HDFS中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器；获取所述待预测文本的情感分类。本发明在Spark计算框架下使用ADMM并行方法求解优化问题，使得模型训练更加快速，更适合大数据场景下的文本情感分类；有效提升了分类的效率与精度。
搜索关键词：	spark 框架稀疏多元逻辑回归模型文本情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法，其特征在于，所述方法包括：将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中；Spark平台从HDFS分布式文件系统中读取数据，生成具有多个分区的弹性分布式数据集RDD，并将读取的数据存储在所述弹性分布式数据集RDD中；Spark平台将数据的预处理任务分为多个任务组，然后对每个任务组中存储有读取数据的RDD进行预处理，将预处理的结果存入HDFS分布式文件系统中；利用经过预处理变换的RDD训练稀疏多元逻辑回归模型，将稀疏多元逻辑回归模型的凸优化问题转化为共享问题；采用ADMM算法求解共享问题，得到稀疏多元逻辑回归模型参数的迭代公式；将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算，得到稀疏多元逻辑回归分类器；保存所述稀疏多元逻辑回归分类器，将所述稀疏多元逻辑回归分类器输出到HDFS分布式文件系统中；将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中；待预测文本数据集经过与训练样本数据集相同的RDD预处理后，输出到HDFS分布式文件系统中；从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器；利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类，获取所述待预测文本的情感分类；在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810331615.0/，转载请声明来源钻瓜专利网。

上一篇：一种数据库会话跟踪及分析方法及其装置
下一篇：基于爬虫技术的CMS页面生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法有效

专利文献下载