[发明专利]基于事件检测的微博网络情感社区识别方法有效
| 申请号: | 201910577138.0 | 申请日: | 2019-06-28 |
| 公开(公告)号: | CN110347897B | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 杨海陆;陈德运;王莉莉;王亮 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06F40/289;G06F40/216;G06F40/242;G06Q50/00;G06K9/62 |
| 代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 事件 检测 网络 情感 社区 识别 方法 | ||
1.一种基于事件检测的微博网络情感社区识别方法,其特征是:包括如下步骤:
步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;
所述步骤一具体为:
第一步:采用Python爬虫向上广度优先搜索策略,爬取微博社交网络用户的用语数据,通过下式表示微博网络用语数据:
Di={Li,Fi,Ri,Ci,Ti} (1)
其中,Di为微博帖子i的网络用语数据,Li为微博帖子i的文本,Fi为微博帖子i的发帖者的粉丝数量,Ri为微博帖子i的转发次数,Ci为微博帖子i的评论次数,Ti为微博帖子i的发布时间,i表示为微博帖子;
第二步:初始化微博网络用语数据,并将所述初始化的数据存于MySQL数据库;
步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;
所述步骤二具体为:
第一步:采用TF-IDF方法计算词汇η在微博网络用语数据中的权重,通过下式计算词汇η的权重:
其中,为词汇η的权重,为词汇η在Di中出现的频率,dfη为词汇η在滑动窗口中所有帖子中出现的次数,N为爬取到的微博帖子总数;
第二步:以词汇η的权重为基础,构造度量微博帖子间相关程度的余弦相似表达式以为优化函数,采用k-Medoide算法将词汇一致的微博帖子聚合成同一个群组,迭代生成事件集合C,通过下式表示所述表达式
C={c1,c2,...,ck} (3)
其中,C为迭代生成的事件集合,ck为第k个微博事件,为度量微博帖子间相关程度的余弦相似表达式,以及|wC|分别为Di内词汇以及事件集合C内词汇的TF-IDF权重集合;
第三步:构造社会热点事件评估函数δHOT,筛选出关注度高的m个社会热点事件,通过下式表示δHOT:
其中,δHOT为社会热点事件评估函数,Nc为事件集合C中的帖子总数;
第四步:对筛选处的m个社会热点事件进行排序,得到m个社会热点事件集合,通过下式表示m个社会热点事件集合:
CIM={c1,c2,...,cm} (6)
其中,CIM为m个社会热点事件集合,cm为第m个社会热点事件;
步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;
所述步骤三具体为:
第一步:利用ICTCLAS分词系统对微博网络用语数据进行分词;
第二步:基于HowNet情感词典完成词语级情感极性分析,对未出现在情感词典中的网络词汇ηnew,建立词语级相似性度量函数,通过函数判断ηnew与HowNet情感词典已有的词汇ηhow相似程度,通过下式表示词语级相似性度量函数:
其中,S(ηnew,ηhow)为词语级相似性度量函数,|ηnew|以及|ηhow|分别为词汇ηnew以及ηhow在爬取数据时出现次数;
第三步:计算用户u对m个社会热点事件发表言论的情感极性,生成微博用户u对m个社会热点事件的情感极性标签,通过下式表示所述情感极性标签:
其中,U为微博用户u对m个社会热点事件的情感极性标签,为微博用户u对第m个社会热点事件发表言论极性总体的加权平均;
步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区;
所述步骤四具体为:
第一步:初始化微博用户对社会热点事件的情感极性标签,每个微博用户包含一个特征向量,通过下式表示特征向量:
vecu=(lu,bu) (9)
其中,vecu为微博用户u的特征向量,lu为微博用户u的社区标签集合,bu为微博用户u对社区的归属程度;
初始化所述征向量时,得到vecu=(u,1),归属程度为1;
第二步:微博用户向邻居用户传递一次特征向量,构造社区标签更新迭代规则,所述规则具体为:当微博用户收到邻居用户传来的特征向量时,微博用户将收到的特征进行更改,通过下式进行更改:
其中,τ(u)为微博用户u的邻居集合,v为微博用户u的邻居用户,vecv∈τ(u)为所述邻居用户v的特征向量,lv为邻居用户v的社区标签集合,b′v为邻居用户v对社区的归属程度;U和V分别代表微博用户u以及邻居用户v的情感极性标签集合,MIC(U,V)为微博用户u与邻居用户v之间情感极性标签的最大互信息系数,
通过下式计算MIC(U,V):
其中,I[U;V]为U和V之间的互信息;
当对微博用户u的任意一邻居x,x∈τ(u),以及所有收到的任意特征向量vec′x∈τ(u)=(lx,b′x),lx为任意一邻居x的社区标签集合,b′x为任意一邻居x对社区的归属程度,选择b′x最大的邻居所持有的社区标签作为基准社区标签,则用户u加入基准社区标签所代表的社区;
当对于基准社区标签之外的社区标签ly时,y∈τ(u),满足y归属程度不是最大的,当y的邻居同时包括y自身对ly的隶属度的为最大值时,所述隶属度的最大值再加上除ly的隶属度最大值外的隶属度之和再与u的邻居数的作商;当所述作商的结果大于b′x,则将u加入y所在社区;
第三步:重复第二步,当社区标签收敛时,终止循环,将具有相同社区标签的用户划分到同一个社区。
2.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:通过δHOT统计粉丝的有效回应,所述δHOT取值范围为[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910577138.0/1.html,转载请声明来源钻瓜专利网。





