[发明专利]微博热点话题检测方法及系统有效
申请号: | 201310304410.0 | 申请日: | 2013-07-19 |
公开(公告)号: | CN103345524A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 任伟;孙亚璐;武进霞;林佳华;熊峰 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点话题 检测 方法 系统 | ||
技术领域
本发明涉及社交网络信息安全领域,尤其涉及一种微博热点话题检测方法及系统。
背景技术
互联网日渐成为舆情产生和传播的主要场所,很多人在网络上主动表达自己的观点和看法。由于网络本身具有虚拟性、隐藏性、渗透性和随意性等特点,使得网络舆情的社会影响力越来越大,甚至会影响国家重大决策。因此,各国政府与军队都高度关注网络舆情的研究,以便及时对热点、焦点与敏感话题做出反应。
网络热点话题发现是网络舆论管理需要解决的首要问题,最早在该领域展开研究的是由美国国防部先进研究项目局支持的话题检测与跟踪(Topic detection and tracking,简称TDT) 项目,该项目在话题检测方面致力于新事件检测以及事件跟踪方面的研究。互联网中的Web 信息资源,如新闻网站、论坛、博客及微博,汇集了各类事件和新闻的报道和舆论评价,是热点话题检测的重要信息平台。
热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类,一类是通过向量空间模型,计算各个新闻或帖子的距离,或潜在的主题模型进行聚类,另一类是直接通过统计词频产生热点词集合,再进行合理聚类,产生的不同热点词集合来表示不同的热点话题。
随着微博的流行,主要针对微博进行热点话题检测预警的方法还比较少,现有技术中主要是针对新闻网站、论坛、博客等主要通过单点检测,通过直接统计词或重复串的出现次数,用频繁词集合来表达热点话题。该方法无法有效针对微博转发的情形进行相应的检测,相应检测的准确性也不高。
发明内容
本发明要解决的技术问题在于针对现有技术中无法有效针对微博转发的情形进行相应的热点话题检测的缺陷,提供一种能够在线实时检测,检测准确性高,算法简单,容易实现的微博热点话题检测方法及系统。
本发明解决其技术问题所采用的技术方案是:
提供一种微博热点话题检测方法,包括以下步骤:
S1、采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博账号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;所述动态信息还包括对于每个转发该微博的帐号所继续循环采集的信息:该条微博的转发时间和转发该微博的帐号的粉丝数;
S2、提取被监控微博帐号中每条微博的内容中的关键词,并将具有近似关键词的微博作为同类话题微博;并采集同类话题微博帐号的静态信息和每条微博的动态信息;
S3、计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;
S4、若热度衡量值大于相应的阈值,则判定该同类话题为热点话题。
本发明所述的方法中,还包括步骤:
S5、对热点话题进行排行;
S6、将排行结果发送给指定用户。
本发明所述的方法中,步骤S2中同类话题微博的判定具体为:
分离微博内容中的词和词组,生成一分词集合;
将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。
本发明所述的方法中,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与总粉丝的比例。
本发明解决其技术问题所采用的另一技术方案是:
提供一种微博热点话题检测预警系统,包括:
采集模块,用于采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博账号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;所述动态信息还包括继续循环采集的如下传播信息:转发该条微博的时间;转发该微博的帐号的粉丝数;
提取模块,用于提取被监控微博帐号中每条微博的内容中的关键词;
同类话题微博判定模块,用于将具有近似关键词的微博作为同类话题微博,以通过采集模块采集同类话题微博帐号的静态信息和每条微博的动态信息;
计算模块,用于计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;
判定模块,用于在热度衡量值大于相应的阈值时,判定该同类话题为热点话题。
本发明所述的系统中,该系统还包括:
排行模块,用于对热点话题进行排行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310304410.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页信息抽取方法及装置
- 下一篇:一种搜索引擎的搜索结果处理方法及装置