[发明专利]Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法有效

专利信息
申请号: 201810331615.0 申请日: 2018-04-13
公开(公告)号: CN108549692B 公开(公告)日: 2021-05-11
发明(设计)人: 雷大江;杜萌;陈浩;张莉萍;吴渝;杨杰;程克非 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/182;G06F40/289
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 贾允;肖丁
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: spark 框架 稀疏 多元 逻辑 回归 模型 文本 情感 分类 方法
【说明书】:

发明提供了一种Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法,包括:将训练样本数据集存储于HDFS中;Spark平台从HDFS中读取数据生成RDD;Spark平台将数据的预处理任务分为多个任务组,对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS中;训练稀疏多元逻辑回归模型,经过求解得到稀疏多元逻辑回归分类器;将所述稀疏多元逻辑回归分类器输出到HDFS中;从HDFS中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器;获取所述待预测文本的情感分类。本发明在Spark计算框架下使用ADMM并行方法求解优化问题,使得模型训练更加快速,更适合大数据场景下的文本情感分类;有效提升了分类的效率与精度。

技术领域

本发明涉及分布式机器学习领域,尤其涉及一种Spark框架下的稀疏多元逻辑回归模型对文本情感分类方法。

背景技术

分类作为机器学习、数据挖掘的关键部分,在图像识别、药物开发、语音识别、手写辨识等方面有着广泛的应用。它是基于已知训练集识别一个新的实例属于哪个类别的有监督的学习问题。

随着数据规模的不断扩大,稀疏多元逻辑回归(Sparse Multinomial LogisticRegression,SMLR)问题的串行求解方法已经难以满足大数据应用中时间和存储空间上的限制。在众多的分布式算法中,交替方向乘子法(Alternating Direction Method ofMultipliers,ADMM)因具有高分解性和收敛性的特点而被广泛应用于与分布式机器学习领域。

交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)作为一种求解优化问题的计算框架,适用于求解分布式凸优化问题。ADMM算法为机器学习中的约束最优化问题的高效分布式求解提供了可能。原始的ADMM算法在统计机器学习、数据挖掘和计算机视觉等领域中得到了广泛应用。ADMM算法主要解决带有等式约束的关于两个变量的目标函数的最小化问题。相对于乘子法,ADMM算法最大的优势在于其能够充分利用目标函数的可分解性,对目标函数中的多变量进行交替优化。ADMM的优化框架是分解-协作(Decomposition-Coordination)的过程,具有可满足并行化的优势。作为能够有效地协调多个节点之间子全局模型变量优化的强有力工具,ADMM在分布式优化和统计学习中扮演着举足轻重的角色,受到了研究学者的极大关注。ADMM发展至今,己经被广泛地应用到机器学习、数据挖掘和信号处理等领域。

多元逻辑回归(Multinomial Logistic Regression,MLR),是逻辑回归模型(Logistic Regression,LR)在多分类问题上的推广。对于多分类问题来说,类别之间通常是互斥的。因此,使用多元逻辑回归相较于逻辑回归通常能得到更好的结果。同时,多元逻辑回归只需要训练一次即可,因此它也具有较快的运行速度。引入了L1正则项的多元逻辑回归称作稀疏多元逻辑回归(Sparse Multinomial Logistic Regression,SMLR)。随着数据规模不断扩大,人们对高性能并行化算法的需求越来越迫切。因此,SMLR算法的分布式实现具有重要的现实意义,而ADMM算法的提出也为SMLR算法的并行求解提供了可能。

Apache Spark作为一种当今最流行的分布式计算框架之一,它是基于内存计算和并行计算的,非常适合大数据挖掘和机器学习。在速度方面,它是基于内存计算的,而Hadoop将中间计算结果写到HDFS文件系统,每次读写操作都要读写HDFS文件系统,所以Spark比Hadoop要快上100倍;而访问磁盘的速度比Hadoop快10倍。所以Spark更适合运行更复杂的算法,例如:迭代计算、图计算等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810331615.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top