[发明专利]微博热点话题检测方法及系统有效
申请号: | 201310304410.0 | 申请日: | 2013-07-19 |
公开(公告)号: | CN103345524A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 任伟;孙亚璐;武进霞;林佳华;熊峰 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点话题 检测 方法 系统 | ||
1.一种微博热点话题检测方法,其特征在于,包括以下步骤:
S1、采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博账号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的粉丝的帐号;所述动态信息还包括对于每个转发该微博的帐号所继续循环采集的信息:该条微博的转发时间和转发该微博的帐号的粉丝数;
S2、提取被监控微博帐号中每条微博的内容中的关键词,并将具有近似关键词的微博作为同类话题微博;并采集同类话题微博帐号的静态信息和每条微博的动态信息;
S3、计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;
S4、若热度衡量值大于相应的阈值,则判定该同类话题为热点话题。
2.根据权利要求1所述的方法,还包括步骤:
S5、对热点话题进行排行;
S6、将排行结果发送给指定用户。
3.根据权利要求2所述的方法,其特征在于,步骤S2中同类话题微博的判定具体为:
分离微博内容中的词和词组,生成一分词集合;
将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。
4.根据权利要求1所述的方法,其特征在于,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与总粉丝的比例。
5.一种微博热点话题检测预警系统,其特征在于,包括:
采集模块,用于采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博账号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;所述动态信息还包括继续循环采集的如下传播信息:转发该条微博的时间;转发该微博的帐号的粉丝数;
提取模块,用于提取被监控微博帐号中每条微博的内容中的关键词;
同类话题微博判定模块,用于将具有近似关键词的微博作为同类话题微博,以通过采集模块采集同类话题微博帐号的静态信息和每条微博的动态信息;
计算模块,用于计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;
判定模块,用于在热度衡量值大于相应的阈值时,判定该同类话题为热点话题。
6.根据权利要求5所述的系统,其特征在于,该系统还包括:
排行模块,用于对热点话题进行排行;
发送模块,用于将排行结果发送给指定用户。
7.根据权利要求6所述的系统,其特征在于,所述同类话题微博判定模块具体用于分离微博内容中的词和词组,生成一分词集合,并将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。
8.根据权利要求5所述的系统,其特征在于,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与总粉丝的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310304410.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页信息抽取方法及装置
- 下一篇:一种搜索引擎的搜索结果处理方法及装置