[发明专利]一种社交关系驱动的微博主题情感分析方法有效
申请号: | 201610580948.8 | 申请日: | 2016-07-22 |
公开(公告)号: | CN106202053B | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 黄发良;何万莉;潘传迪;元昌安;李超雄 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明涉及一种社交关系驱动的微博主题情感分析方法,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、 |
||
搜索关键词: | 一种 社交 关系 驱动 主题 情感 分析 方法 | ||
【主权项】:
1.一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数ra,则w所对应的主题t即是第(ra+1)个主题,其中ra∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感极性:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感极性l分配给w,否则产生一个随机数rb,则w的情感极性l即是第(rb+1)个情感极性,其中rb∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、
和
进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博dm中的每个词语w,首先从VarSet中除去当前词语w所属的情感极性与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t‑i,l‑i,w)重新给w赋一个基于用户关系参数λ的情感极性和主题,同时更新变量VarSet,其中t‑i和l‑i分别是指除微博dm中第i个词以外的其他词的主题与情感极性;步骤43:令C2=C2+1,以更新C2;步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;步骤45:更新
和
并置C2=0,然后转步骤41;其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,
表示微博dm中主题t出现的概率,
表示所有微博中词语w同时属于主题t和情感极性l的概率,
表示微博dm中情感极性l属于主题t的概率;步骤5、判断微博dm的情感极性并输出:若
其中l1为积极情感,l2为消极情感,则判定微博dm的情感极性为积极情感,反之为消极情感;所述社交关系主题情感模型SRTSM的建立方法为:(1)初始化社交关系主题情感模型SRTSM的分布参数Π={A,B,H},其中,A为微博‑主题分布,表示微博dm的主题为t的概率,B为(主题,情感)‑词语分布,表示词语w同时属于情感极性l与主题t的概率,H为(微博,主题)‑情感分布,表示微博dm中情感极性l属于主题t的概率,A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η),其中α是指主题t在微博dm中出现的先验次数,β是指词语在微博集C中出现的先验次数,η是指情感极性l在微博dm中出现的先验次数;(2)重复如下操作直到生成一条微博消息中的所有词语:首先从微博‑主题分布A中选出一个主题t,t服从Mul(A)分布,其中Mul(*)表示多项分布;接着根据产生的主题t,从(微博,主题)‑情感分布H中选出一个情感极性l,l服从Mul(H)分布并且受λ的影响,λ受用户关系分布G影响,G为已知的微博用户关系分布,假设当前微博作者为用户k,若用户k与j互相关注,则G(k,j)=1,否则G(k,j)=0;当G(k,j)为1时,计算用户j的情感极性值,通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ;最后根据选出的主题t和情感极性l,从(主题,情感)‑词语分布B中选择一个词语w,w服从Mul(B)分布;(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610580948.8/,转载请声明来源钻瓜专利网。