[发明专利]一种社交关系驱动的微博主题情感分析方法有效

申请号：	201610580948.8	申请日：	2016-07-22
公开（公告）号：	CN106202053B	公开（公告）日：	2018-11-27
发明（设计）人：	黄发良;何万莉;潘传迪;元昌安;李超雄	申请（专利权）人：	福建师范大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06Q50/00
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350117 福建省福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种社交关系驱动的微博主题情感分析方法，包括以下步骤：步骤1、对微博消息集进行微博文本分词、去停用词预处理，提取微博用户关系分布G，并设置情感词典；步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理；步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C₁与C₂置0；步骤4：利用社交关系主题情感模型SRTSM不断对变量VarSet＝(n_m,t,l,n_m,t,n_m,n_t,l,w,n_t,l)、和进行迭代更新；步骤5、判断微博m的情感极性并输出。该方法能够有效发现隐藏于微博消息中的主题情感模式，提高微博情感分类的正确率。
搜索关键词：	一种社交关系驱动主题情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种社交关系驱动的微博主题情感分析方法，其特征在于，包括以下步骤：步骤1、对微博消息集进行微博文本分词、去停用词预处理，提取微博用户关系分布G，并设置情感词典；步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理：针对词语w，首先按以下方法为w分配主题：生成一个随机数ra，则w所对应的主题t即是第(ra+1)个主题，其中ra∈[0,T]，T为微博消息集的主题数；然后按以下方法为w分配情感极性：从情感词典中查找词语w，若情感词典中有w，则将情感词典中w所对应的情感极性l分配给w，否则产生一个随机数rb，则w的情感极性l即是第(rb+1)个情感极性，其中rb∈[0,L]，L为情感极性类别数；步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0；步骤4：利用社交关系主题情感模型SRTSM不断对变量VarSet＝(n_m,t,l,n_m,t,n_m,n_t,l,w,n_t,l)、和进行如下迭代更新直到循环控制计数器C₁达到最大迭代次数：步骤41：判断C1是否大于设定值X，是则转步骤5，否则转下一步骤；步骤42：对每条微博dm中的每个词语w，首先从VarSet中除去当前词语w所属的情感极性与主题，再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值，然后利用吉布斯采样的联合概率p(ti＝t,li＝l|t‑i,l‑i,w)重新给w赋一个基于用户关系参数λ的情感极性和主题，同时更新变量VarSet，其中t‑i和l‑i分别是指除微博dm中第i个词以外的其他词的主题与情感极性；步骤43：令C2＝C2+1，以更新C2；步骤44：判断C2是否大于设定值Y，是则转下一步骤，否则返回步骤42；步骤45：更新和并置C₂＝0，然后转步骤41；其中n_m,t,l表示微博d_m中情感极性为l的词语属于主题t的频数，n_m,t表示微博d_m中属于主题t的词语总频数，n_m表示微博d_m总词语数，n_t,l,w表示词语w同时属于主题t、情感极性l的频数，n_t,l表示所有同时属于主题t、情感极性l的词语总频数，表示微博d_m中主题t出现的概率，表示所有微博中词语w同时属于主题t和情感极性l的概率，表示微博d_m中情感极性l属于主题t的概率；步骤5、判断微博d_m的情感极性并输出：若其中l₁为积极情感，l₂为消极情感，则判定微博d_m的情感极性为积极情感，反之为消极情感；所述社交关系主题情感模型SRTSM的建立方法为：(1)初始化社交关系主题情感模型SRTSM的分布参数Π＝{A，B，H}，其中，A为微博‑主题分布，表示微博dm的主题为t的概率，B为(主题，情感)‑词语分布，表示词语w同时属于情感极性l与主题t的概率，H为(微博，主题)‑情感分布，表示微博dm中情感极性l属于主题t的概率，A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η)，其中α是指主题t在微博dm中出现的先验次数，β是指词语在微博集C中出现的先验次数，η是指情感极性l在微博dm中出现的先验次数；(2)重复如下操作直到生成一条微博消息中的所有词语：首先从微博‑主题分布A中选出一个主题t，t服从Mul(A)分布，其中Mul(*)表示多项分布；接着根据产生的主题t，从(微博，主题)‑情感分布H中选出一个情感极性l，l服从Mul(H)分布并且受λ的影响，λ受用户关系分布G影响，G为已知的微博用户关系分布，假设当前微博作者为用户k，若用户k与j互相关注，则G(k,j)＝1，否则G(k,j)＝0；当G(k,j)为1时，计算用户j的情感极性值，通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ；最后根据选出的主题t和情感极性l，从(主题，情感)‑词语分布B中选择一个词语w，w服从Mul(B)分布；(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610580948.8/，转载请声明来源钻瓜专利网。

上一篇：一种针对长文本的相似性判定方法
下一篇：一种MySQL数据库结构化文档生成方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种社交关系驱动的微博主题情感分析方法有效

专利文献下载