[发明专利]一种微博情感分析方法及系统在审
申请号: | 201811432829.3 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109543110A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 李博涵;万朔;王凯;张安曼;关东海;秦小麟 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F16/35 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张海青 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 话题数据 情感分析 情感分类 语料库 预设时间段 爬虫 采集目标 聚焦网络 情感类型 数据构建 数量相等 文本数据 分类器 情感词 时效性 话题 过滤 表情 分类 中文 监督 学习 | ||
本发明公开一种微博情感分析方法及系统。本发明提供的微博情感分析方法及系统,采用聚焦网络爬虫采集目标话题在预设时间段内的若干微博文本数据作为目标话题数据,将各个目标话题数据输入微博情感分类器,即可获得各个目标话题数据的情感类型。本发明采用基于表情词和情感词的弱监督学习方法进行情感微博的过滤,选取数量相等的积极微博数据和消极微博数据构建了一个百万量级的中文微博语料库,利用语料库对fastText分类器进行训练获得的微博情感分类器,可兼顾分类的准确性和时效性,能够准确反映话题的情感走向。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种微博情感分析方法及系统。
背景技术
微博话题的情感分析旨在探索社交网络上人们对于某一话题或事件的观点和态度。智能手机的普及使得越来越多的人从移动终端接入互联网,进入社交网络。新浪微博作为国内较大的社交网络平台,其日活跃用户量已经超过了1.5亿,平均每日发布的微博总数达两亿条之多。微博海量的数据中蕴含着丰富的实时信息,人们可以将生活动态和观点推送到微博上,也可以对热门事件进行评论。这些带有主观色彩的数据给情感分析的研究带来了很大的便利。微博的实时和时序情感信息挖掘可以准确的反映出微博话题走向并进行预警,对于个人、企业和政府来说都有积极意义。
微博的数据具有实时性和时效性,抓住微博信息的时效性,分析最新的话题数据,才能更大的发挥数据的价值。目前针对微博情感分析的研究大多致力于运用深度学习的方法提高情感分类器的分类性能,其使用的数据集也大多是该领域最典型的斯坦福Twitter英文情感分析数据集,并没有针对微博某一特定话题或领域的垂直时序分析,也并没有针对某一话题的大规模微博数据集。大多数研究都是在已有的数据集上进行静态的情感分析,时效性较差。
发明内容
本发明的目的是提供一种微博情感分析方法及系统,可兼顾分类的准确性和时效性,能够准确反映话题的情感走向。
为实现上述目的,本发明提供了如下方案:
一种微博情感分析方法,所述分析方法包括:
采用聚焦网络爬虫采集目标话题在预设时间段内的若干微博文本数据作为目标话题数据;
将各个所述目标话题数据输入微博情感分类器,获得各个所述目标话题数据的情感类型,所述微博情感分类器的输入为微博文本数据,所述微博情感分类器的输出为积极微博或消极微博;所述微博情感分类器的建立方法具体包括:
采用通用网络爬虫采集若干微博文本数据作为分类训练数据;
获取微博文本的特征表情词,所述特征表情词包括积极表情词和消极表情词;
利用所述特征表情词对所述分类训练数据进行分类,获得积极微博数据和消极微博数据,所述积极微博数据为带有积极表情词的微博数据,所述消极微博数据为带有消极表情词的微博数据;
选取数量相等的积极微博数据和消极微博数据构成语料库;
利用所述语料库对所述fastText分类器进行训练,获得所述微博情感分类器。
可选的,所述获取微博文本的特征表情词之前,还包括:
对所述分类训练数据进行去噪处理,获得去噪处理后的分类训练数据,所述去噪处理具体包括:
过滤掉微博文本数据中的颜文字和符号;
采用正则表达式对统一资源定位符链接和邮箱进行匹配过滤;
过滤掉字符长度小于设定阈值的微博文本数据。
可选的,所述选取数量相等的积极微博数据和消极微博数据构成语料库之前还包括:
判断所述积极微博数据中是否存在情感极性词典中的消极情感词,获得第一判断结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811432829.3/2.html,转载请声明来源钻瓜专利网。