[发明专利]一种基于主题识别和集成学习的微博情感分析方法有效
申请号: | 201810333907.8 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108563638B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 曾子明;杨倩雯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06F16/35 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣;李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题识别和集成学习的微博情感分析方法,该方法包括以下步骤:收集微博数据并进行人工标注;通过文本数据处理方法对微博文本进行预处理;通过LDA主题相关性指标选择最优文本主题数并用LDA挖掘文本主题;结合情感词典构建用于微博情感分析的主题特征、情感特征和句式特征;将上述特征作为训练AdaBoost算法的输入特征变量以建立微博情感分析分类器。本发明方法通过深入挖掘了微博文本语义信息,有效提高了文本情感分类精度。 | ||
搜索关键词: | 一种 基于 主题 识别 集成 学习 情感 分析 方法 | ||
【主权项】:
1.一种基于主题识别和集成学习的微博情感分析方法,其特征在于,包括以下步骤:1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810333907.8/,转载请声明来源钻瓜专利网。