[发明专利]Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法有效
申请号: | 201810331615.0 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108549692B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 雷大江;杜萌;陈浩;张莉萍;吴渝;杨杰;程克非 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/182;G06F40/289 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法,包括:将训练样本数据集存储于HDFS中;Spark平台从HDFS中读取数据生成RDD;Spark平台将数据的预处理任务分为多个任务组,对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS中;训练稀疏多元逻辑回归模型,经过求解得到稀疏多元逻辑回归分类器;将所述稀疏多元逻辑回归分类器输出到HDFS中;从HDFS中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器;获取所述待预测文本的情感分类。本发明在Spark计算框架下使用ADMM并行方法求解优化问题,使得模型训练更加快速,更适合大数据场景下的文本情感分类;有效提升了分类的效率与精度。 | ||
搜索关键词: | spark 框架 稀疏 多元 逻辑 回归 模型 文本 情感 分类 方法 | ||
【主权项】:
1.Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法,其特征在于,所述方法包括:将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;利用经过预处理变换的RDD训练稀疏多元逻辑回归模型,将稀疏多元逻辑回归模型的凸优化问题转化为共享问题;采用ADMM算法求解共享问题,得到稀疏多元逻辑回归模型参数的迭代公式;将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算,得到稀疏多元逻辑回归分类器;保存所述稀疏多元逻辑回归分类器,将所述稀疏多元逻辑回归分类器输出到HDFS分布式文件系统中;将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器;利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810331615.0/,转载请声明来源钻瓜专利网。