[发明专利]一种基于话题影响力的微博话题情感分析方法在审
申请号: | 201910036276.8 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109684646A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 杨璐;刘志锋;周从华;单田华;李雷;韩飞 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 何浩 |
地址: | 212000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 话题 情感分析 情感极性 标注 排序 文本 用户影响力因子 用户个人信息 预处理 情感倾向性 热点话题 网络舆情 文本数据 系统监管 因子计算 舆情分析 相似度 聚类 采集 参考 监测 监管 应用 发现 | ||
1.一种基于话题影响力的微博话题情感分析方法,其特征为,包括以下步骤:
步骤1,通过微博提供的API接口获取微博用户的个人信息数据,包括用户的用户微博数、粉丝数、关注数、评论数;采用网络爬虫方式获取大量微博文本;
步骤2,对微博文本进行数据预处理,包括过滤噪声、分词和去停用词;
步骤3,将微博文本按照自带hashtag进行粗分类,使用LDA模型进一步进行主题聚类:微博文本中经常会出现##话题,首先我们可以初步按照自带话题标签对微博文本进行分类;其次利用LDA模型得到主题分布,将微博文本进一步地细分为各主题区间;
步骤4,对部分微博文本进行情感极性标注,若该条微博文本情感倾向为正向,则标记为1,否则标记为-1;利用标注微博文本集进行训练并优化,生成SVM情感分类器;使用SVM分类器得到未标注微博文本情感极值;
步骤5,根据步骤1所采集到数据计算用户影响力和话题内该用户发布的微博文本与话题相似度来计算该文本的话题影响力;
步骤6,计算出该微博文本的主流情感倾向及情感值并对话题情感值进行排序;感极性值P接近0,则该话题为中性;P>0,则该话题为正向;P<0代表该话题为负面情绪;若一个话题负向情感值极高,则说明该话题很有可能引起突发舆情事件,应做出舆情预警。
2.如权利要求1所述的一种基于话题影响力的微博话题情感分析方法,其特征为,步骤3中LDA模型进行主题聚类的方法为:
过程3.1,根据已有标签的微博文本语料库进行学习,生成LDA主题模型;具体LDA主题模型生成过程可以描述如下:
3.1.1,文本d中词项总数Nd服从泊松分布,其参数为ξ:Nd~Poisson(ξ);
3.1.2,对每篇文档d,按概率生成其主题分布:
3.1.3,对每个主题z,按概率生成其词项分布:
3.1.4,根据主题分布和词语分布生成文本中的每一个词语;
LDA模型生成过程中,所有观测变量和隐含变量在给定超参数下联合概率为
过程3.2,采用Gibbs抽样算法对生成的LDA主题模型进行主题抽取;
过程3.3,对需要进行主题分类的文本利用Gibbs抽样算法推断其主题分布概率。
3.如权利要求1所述的一种基于话题影响力的微博话题情感分析方法,其特征为,步骤4中SVM分类器预测未标注文本情感倾向的方法为:
过程4.1,选取部分微博文本进行人工标注作为训练集,其余采集的未标注微博文本作为测试集;
过程4.2,特征提取,选取一些文本特征进行训练,包括词性、情感词、否定词、程度副词及特殊符号;
过程4.3,对特征进行降维,不断优化模型直至生成SVM分类器;
过程4.4,利用SVM分类器预测得到微博情感极值。
4.如权利要求1所述的一种基于话题影响力的微博话题情感分析方法,其特征为,步骤5中话题影响力和话题情感值的计算方法为:
过程5.1,根据采集到的用户数据进行标准化和归一化处理,筛选用户的微博发布数、评论数、粉丝数和被提及次数;计算出对于话题传播影响最大的属性特征值——活跃度H、传播力C、覆盖度G;通过用户影响力计算公式来得到用户影响力;
过程5.2,通过TF-IDF算法计算文本内容和话题的相似度作为话题影响力的因子;
过程5.3,根据用户影响力以及微博相似度来计算该条微博文本的话题影响力。
5.如权利要求4所述的一种基于话题影响力的微博话题情感分析方法,其特征为,过程5.1中,微波发布数包括原创和转发微博的总数。
6.如权利要求1所述的一种基于话题影响力的微博话题情感分析方法,其特征为,步骤6中话题的主流情感倾向及情感值的计算方法为:
过程6.1,选取一段时间,统计该段时间内话题内发布微博的用户数;
过程6.2,根据SVM分类器的情感极性预测结果计算情感极性为正、负向的用户集合;
过程6.3,根据不同用户的不同微博文本的话题影响力来计算整个话题的情感倾向及情感值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910036276.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:中文分词方法及装置
- 下一篇:电影评论情感分析方法及装置