[发明专利]一种微博情感分析方法及系统在审
申请号: | 201811432829.3 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109543110A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 李博涵;万朔;王凯;张安曼;关东海;秦小麟 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F16/35 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张海青 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 话题数据 情感分析 情感分类 语料库 预设时间段 爬虫 采集目标 聚焦网络 情感类型 数据构建 数量相等 文本数据 分类器 情感词 时效性 话题 过滤 表情 分类 中文 监督 学习 | ||
1.一种微博情感分析方法,其特征在于,所述分析方法包括:
采用聚焦网络爬虫采集目标话题在预设时间段内的若干微博文本数据作为目标话题数据;
将各个所述目标话题数据输入微博情感分类器,获得各个所述目标话题数据的情感类型,所述微博情感分类器的输入为微博文本数据,所述微博情感分类器的输出为积极微博或消极微博;所述微博情感分类器的建立方法具体包括:
采用通用网络爬虫采集若干微博文本数据作为分类训练数据;
获取微博文本的特征表情词,所述特征表情词包括积极表情词和消极表情词;
利用所述特征表情词对所述分类训练数据进行分类,获得积极微博数据和消极微博数据,所述积极微博数据为带有积极表情词的微博数据,所述消极微博数据为带有消极表情词的微博数据;
选取数量相等的积极微博数据和消极微博数据构成语料库;
利用所述语料库对所述fastText分类器进行训练,获得所述微博情感分类器。
2.根据权利要求1所述的微博情感分析方法,其特征在于,所述获取微博文本的特征表情词之前,还包括:
对所述分类训练数据进行去噪处理,获得去噪处理后的分类训练数据,所述去噪处理具体包括:
过滤掉微博文本数据中的颜文字和符号;
采用正则表达式对统一资源定位符链接和邮箱进行匹配过滤;
过滤掉字符长度小于设定阈值的微博文本数据。
3.根据权利要求1所述的微博情感分析方法,其特征在于,所述选取数量相等的积极微博数据和消极微博数据构成语料库之前还包括:
判断所述积极微博数据中是否存在情感极性词典中的消极情感词,获得第一判断结果;
当所述第一判断结果表示所述积极微博数据中存在情感极性词典中的消极情感词,则将存在消极情感词的积极微博数据滤除;
判断所述消极微博数据中是否存在情感极性词典中的积极情感词,获得第二判断结果;
当所述第二判断结果表示所述消极微博数据中存在情感极性词典中的积极情感词,则将存在积极情感词的消极微博数据滤除。
4.根据权利要求1所述的微博情感分析方法,其特征在于,所述将各个所述目标话题数据输入微博情感分类器之前,还包括:
随机选取与所述目标话题数据数量相同的微博文本数据作为约束训练数据;
利用所述约束训练数据对所述fastText分类器进行训练,获得微博话题约束模型;
采用所述微博话题约束模型对所述目标话题数据进行不相关话题清洗,获得清洗后的目标话题数据。
5.根据权利要求1所述的微博情感分析方法,其特征在于,所述将各个所述目标话题数据输入微博情感分类器,获得各个所述目标话题数据的情感类型之后,还包括:
将各个所述目标话题数据的情感类型按照对应的目标话题数据的发布时间排列在时间轴上。
6.一种微博情感分析系统,其特征在于,所述分析系统包括:
目标话题数据采集模块,用于采用聚焦网络爬虫采集目标话题在预设时间段内的若干微博文本数据作为目标话题数据;
情感分析模块,用于将各个所述目标话题数据输入微博情感分类器,获得各个所述目标话题数据的情感类型,所述微博情感分类器的输入为微博文本数据,所述微博情感分类器的输出为积极微博或消极微博;所述微博情感分类器的建立子系统具体包括:
分类训练数据采集模块,用于采用通用网络爬虫采集若干微博文本数据作为分类训练数据;
特征表情词获取模块,用于获取微博文本的特征表情词,所述特征表情词包括积极表情词和消极表情词;
微博数据分类模块,用于利用所述特征表情词对所述分类训练数据进行分类,获得积极微博数据和消极微博数据,所述积极微博数据为带有积极表情词的微博数据,所述消极微博数据为带有消极表情词的微博数据;
语料库构建模块,用于选取数量相等的积极微博数据和消极微博数据构成语料库;
分类器训练模块,用于利用所述语料库对所述fastText分类器进行训练,获得所述微博情感分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811432829.3/1.html,转载请声明来源钻瓜专利网。