[发明专利]一种微博热词与热点话题挖掘系统及方法有效

申请号：	201310725400.4	申请日：	2013-12-25
公开（公告）号：	CN103678670B	公开（公告）日：	2017-01-11
发明（设计）人：	陈羽中;郭文忠;陈国龙;方明月	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种微博热词热点话题挖掘系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及社交网络技术领域，特别是一种微博热词与热点话题挖掘系统及方法。

背景技术

随着微博的兴起，人们的参与度不断地提高，用户可以通过电脑、手机随时随地地发布自己的所见所闻，并实现即时分享。现在微博已成为互联网的一种时尚，同时也是热点话题产生和讨论的重要场所，热点话题是指在一段时间内，频繁出现在网络上，人们广泛关注并讨论的话题。微博信息的指数增长，使得如何有效地掌控海量信息并提取热点话题，成为亟待解决的问题。

对于热点话题检测，传统的方法是对文本进行聚类，但是这种方法不利于用户直观地识别出热点话题，而且微博具有短文本特性，数据稀疏且分布不平衡，导致这类方法用于发现热点话题的效果并不理想。因此主流的方法是通过热词抽取并聚类实现热点话题发现。

用来权衡词重要性并抽取热词的经典方法有TFIDF和TFPDF等。TFIDF的主要思想是，词出现的频率并不能充分代表文本特征，比如“是”、“神马”这种词，频繁出现，但几乎没有表述文本的能力。而如果一个词在该文本的出现的频率非常高，在其他文本中出现的次数低，这样就能更加充分体现出这个文本的特征，然而，这种方法并不适合于微博中词的权重计算，微博具有短文本特性，一条微博上很少会出现重复的词，而且微博上的热点话题出现之后，会引起用户的广泛转发和讨论，大量微博上包含有同样的关键词，如果用TFIDF的方法来进行关键词抽取，会在一定程度上导致重要词汇遗失。因此，有学者提出了TFPDF的方法，其赋予那些在多数文档中出现的词更高的权重，来抽取热点词汇。这种方法有利于提取热点话题相关的重点词汇，但是也会提取出一些频繁出现但没有表述话题能力的词。热点词汇是指在一段时间内词频剧增的词，而上述两种方法都没有考虑到词随时间的分布情况，不利于热词的抽取。

针对热词聚类，现有的方法有：1）采用初始簇不敏感的Bisecting K-mean聚类算法；2）通过构建词相似度矩阵，利用Affinity Propagation算法在无需指定簇个数情况下进行聚类，其时间复杂度接近；3）基于密度聚类的算法，如DBSCAN；4）层次聚类算法等。

对于海量微博数据的热点发现问题，现有的热词聚类方法的主要问题在于：首先，聚类结果中不同的话题所涉及的词不允许存在交集，这与实际情况并不相符，易导致一些话题没有被发现，或者是话题的辨识度很低。比如，“高校花费问题”和“高校排行榜”这两个话题中，“高校”一词最多只能属于一个话题，而这两个话题无论哪个缺少了“高校”这一关键词，将很难辨识出原本的话题。另外，传统的聚类算法时间复杂度较高，难以适应海量微博数据聚类的要求。

综上，针对社交网络中用户个体的影响力分析已经出现了较完善的技术和方法，但是针对社交网络中社区级别的影响力分析的方法还相对较少，且缺乏对社交网络中各社区的影响力的全面分析评估，面对大规模社交网络的场景，现有方法无论是在分析效果和效率上都难以满足要求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种微博热词与热点话题挖掘系统及方法，该系统及方法有利于提高微博热点发现的准确率和处理效率。

为实现上述目的，本发明的技术方案是：一种微博热词与热点话题挖掘系统，所述系统包括：预处理模块、热词筛选模块、热词共现网络构造模块和热词聚类模块；

预处理模块，用于对社交网络中发布的内容数据进行预处理，获取候选热词，并以此构建候选热词集合；

热词筛选模块，用于根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性，计算每个候选热词的生命力，筛选出热词，并以此构建热词集合；

热词共现网络构造模块，用于计算热词集合中各个热词的相关性，并以此构造热词共现网络；

热词聚类模块，用于根据所述热词共现网络，使用基于多标签传播的热词聚类算法对热词集合进行划分，获得热点话题集。

本发明还提供一种微博热词与热点话题挖掘方法，所述方法包括如下步骤：

步骤A：对社交网络中发布的内容数据进行预处理，获取候选热词，并以此构建候选热词集合；

步骤B：根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性，计算每个候选热词的生命力，筛选出热词，并以此构建热词集合；

步骤C：计算所述热词集合中各个热词的相关性，并以此构造热词共现网络；