[发明专利]一种面向微博的情感社区分类方法有效
申请号: | 201811008927.4 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109214454B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 韩东红;张宏亮;朱帅伟;贾云龙;乔百友;刘莹 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 朱光林 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种面向微博的情感社区分类方法,涉及情感分析技术领域。该方法包括:建立基于情感词典和情感表情的朴素贝叶斯分类分类算法SL‑SE‑NB;建立基于LPA话题模型的用户‑超话题‑子话题‑关键词的四层模型UTK;对话题进行情感分类,形成积极、消极和中性3个情感社区。本发明提供的一种基于面向微博的情感社区分类方法,该方法不仅能够发现模块度较高的情感社区,而且运行时间也在可接受范围之内,本方法既可以为有关部门监测微博用户的舆论导向,同时又能够帮助商家减少商业损失,而且还可以给心理研究机构提供敏感话题人群的情感变化分析结果。 | ||
搜索关键词: | 一种 面向 情感 社区 分类 方法 | ||
【主权项】:
1.一种面向微博的情感社区分类方法,其特征在于,包括以下步骤:步骤1:在基于情感词典的分类方法上,加入微博情感表情特征,采用朴素贝叶斯算法训练分类器建立基于情感词典和情感表情的朴素贝叶斯分类分类算法SL‑SE‑NB,具体步骤如下:步骤1.1:读取消极、积极以及中性训练数据集中的每一篇博文,分别统计3个训练数据集中对应的情感词和情感表情的权重;步骤1.2:读取实验数据集中的每一篇博文,统计当前微博中的情感词和情感表情的词频;步骤1.3:分别计算情感词和情感表情出现在消极微博和积极微博中的后验概率;步骤1.4:根据得到的情感词和情感表情在消极微博和积极微博中的后验概率,计算博文的情感倾向Ans;步骤2:建立基于LPA话题模型的用户‑超话题‑子话题‑关键词的四层模型UTK,具体步骤如下:步骤2.1:抽取每篇博文的关键词,计算语料库中每个关键词对应的超话题的概率;步骤2.2:通过吉布斯采样获取概率矩阵Φ,并获取矩阵中最大的K个关键词对应的超话题,保存K个超话题中出现概率最高的K个词;步骤2.3:抽取测试集中每篇博文的关键词,根据新的语料库、超话题中K个出现概率最高的词,计算新抽取的关键词对应的超话题的概率;步骤2.4:根据Φ概率矩阵,重新采样每个词的话题,并将新文档中话题概率最高的K话题加入用户话题集合UserTopics中;步骤3:根据建立的基于情感词典和情感表情的分类模型和提取到的用户话题集合UserTopics对话题进行情感分类,形成积极、消极和中性3个情感社区,具体步骤如下:步骤3.1:加载边关系并初始化提取到的用户话题集合UserTopics中话题的标签;所述标签为情感极性,其中,积极情感对应标签为1,消极情感对应标签为‑1,中性情感对应标签为0:步骤3.2:初始化当前迭代次数iter_time=0,并设定最大迭代次数max_ite;步骤3.3:判断所有节点的标签与大部分邻居节点标签是否相同且当前迭代次数iter_time是否小于最大迭代次数max_iter,若所有节点的标签与大部分邻居节点标签相同且当前迭代次数iter_time小于最大迭代次数max_iter,则继续步骤3.4,否则停止迭代,输出用户话题集合UserTopics及其标签;步骤3.4:判断当前抽取的关键词是否在提取到的用户话题集合UserTopics内,若在,则不进行关键词更新,重新抽取关键词返回步骤3.4,若不在,则继续步骤3.5;步骤3.5:判断当前抽取的关键词的出现概率是否大于用户话题集合UserTopics内出现概率最大的关键词,若是,则将当前抽取的关键词替换用户话题集合UserTopics内出现概率最小的关键词,重新抽取关键词返回步骤3.4,若否,则令iter_time=iter_time+1,返回步骤3.3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811008927.4/,转载请声明来源钻瓜专利网。