[发明专利]一种中文微博客的热点话题检测方法有效
申请号: | 201410034402.3 | 申请日: | 2014-01-24 |
公开(公告)号: | CN103745000B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 陈国龙;廖祥文;郭德清;郭文忠;魏晶晶 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文微博客的热点话题检测方法,包括以下步骤(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测,检测速度快,准确度高,适用范围广,应用性强。 | ||
搜索关键词: | 一种 中文 博客 热点话题 检测 方法 | ||
【主权项】:
一种中文微博客的热点话题检测方法,其特征在于,包括以下步骤:(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表;所述步骤(2)中,按如下方法对关键字进行初步聚合:采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度:SWij=|WBi∩WBj||WBi∪WBj|]]>其中,SWij表示关键字wi和关键字wj的相似度,WBi表示出现关键字wi的微博集合,WBj表示出现关键字wj的微博集合;如果SWij大于一设定阈值则判定关键字wi和关键字wj属于同一个话题,建立关键字wi和关键字wj的关联关系,否则不建立关键字wi和关键字wj的关联关系;利用得到的所有关联关系构成词关系集合;然后,采用并查集对词关系集合中的关联关系进行合并,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,具体方法如下:对于微博B,通过信息检索中的BM25检索模型检索得到与其最相似的前k条微博{B1,B2,……,Bk},然后将微博B表示为其中:wj表示微博中的关键字,j=1,2,……,n;n表示微博中所有关键字的个数;v‾j=Σi=0kvji/k]]>其中,vji表示所述前k条微博的第i条微博中关键字wj的权重,vji初始为1或0,vji=1表示第i条微博中出现关键字wj,vji=0表示第i条微博中未出现关键字wj;假设经过关键字初步聚合后,关键字wj与其他一个或多个关键字属于同一个话题的词集合,那么如果第i条微博中出现关键字wj,则判定所述其他一个或多个关键字也出现在所述第i条微博中,即第i条微博中所述其他一个或多个关键字的权重也设置为1;最后得到微博B特征丰富后的特征向量
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410034402.3/,转载请声明来源钻瓜专利网。
- 上一篇:用于路线比较的方法及设备
- 下一篇:加热装置和加热装置中使用的气体分布器