[发明专利]一种基于Hadoop的微博热点话题提取方法有效

申请号：	201310501234.X	申请日：	2013-10-23
公开（公告）号：	CN103617169B	公开（公告）日：	2017-04-05
发明（设计）人：	徐明;代光英;任一支;张海平;徐建;郑宁	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州君度专利代理事务所(特殊普通合伙)33240	代理人：	杜军
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hadoop 热点话题提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网络微博中的数据挖掘技术领域，特别是一种基于Hadoop的微博热点话题提取方法。

背景技术

互联网的迅猛发展给网络信息的发现和管理带来了新的机遇和挑战。据CCNIC发布的最新统计报告，截至2013年6月底，我国网民规模达到5.91亿，互联网普及率为44.1%。越来越多的人乐于刷微博、逛淘宝和玩人人。人们也习惯于写博客、记日志和看网页，网络信息的急剧上升影响着社会生活的方方面面。自2006年以来，微博的出现使得普通民众可以随时随地的关注和分享实时的信息。据CCNIC统计报告，目前我国微博用户的规模已经突破了3亿大关，微博已经成为中国网民使用的主流应用，也成为了中国网络舆论传播的中心。无论是普通用户，还是新闻媒体，其获取新闻、传播新闻、发表意见和制造舆论的途径都不同程度的转向了微博平台，移动互联网的快速发展也进一步巩固了微博在互联网中的舆论中心地位。因此，对微博数据流进行挖掘，及时掌握微博中的舆论热点变得越来越重要。传统的热点话题挖掘研究主要针对网页文档进行处理，随着近几年微博的快速发展，话题检测的研究也逐渐转移到了微博数据。

发明内容

为了克服现有技术中的缺陷和不足，本发明提供了一种基于Hadoop的微博热点话题提取方法。本方法基于Hadoop来提取微博中的热点话题，能有效克服单机在处理大数据时空间以及速度方面的不足。

本发明提出了一种基于Hadoop的微博热点话题提取方法。该方法包括以下步骤：首先，组建一个局域网，安装相应的软件搭建Hadoop的平台；其次，利用微博平台的开放API接口采集微博信息；第三，对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取，并利用Hadoop框架中MapReduce运算模型在分布式文件系统HDFS上对微博信息建立索引；第四，把每个热门关键词都看成一个潜在的热门话题，根据特征值计算的方法提取出每个潜在热门话题的特征词组；第五，循环遍历潜在的热门话题，合并相似度超过阈值的话题；最后，对提取出来的热点话题，以特征词组中最热门关键词的爆发得分作为话题的热度，并将热点话题按热度值从高到低次序显示。本发明的技术方案，利用Hadoop框架中MapReduce运算模型的特点，能够准确地判断出微博的热门话题，使挖掘结果更能反映互联网舆论的客观事实，有较强的可扩展性和容错性。

本发明的技术方案，利用Hadoop框架中MapReduce运算模型的特点，能够准确地判断出微博的热门话题，使挖掘结果更能反映互联网舆论的客观事实，有较强的可扩展性和容错性。

本发明包括如下步骤:

步骤一、组建Hadoop集群平台

组建局域网，对局域网中的每个计算机安装Hadoop软件，通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置，将其中一台计算机配置成Hadoop名字节点，而其它计算机配置成数据节点；并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置，将其中一台计算机配置成Hadoop调度节点，而其它计算机配置成任务节点，组建开源的Hadoop平台；

步骤二、微博数据采集

利用微博平台的开放API接口采集微博信息；其中，所述微博信息包括：微博内容、发微博的时间、微博的作者和微博的来源信息(这里所述的微博来源是指微博平台来源，例如来自网页上的新浪微博，来自iphone客户端等)；将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上；

步骤三、数据预处理

数据预处理就是对采集的微博内容进行分词处理，过滤掉一些噪音信息，并抽取出热门关键词组，然后对微博信息在HDFS上建立索引。这里所述噪音信息就是对微博热点话题提取无用的信息，而所述HDFS就是Hadoop平台上的分布式文件系统。

步骤四、话题特征词组提取

把每个热门关键词都看成一个潜在的热门话题，根据特征值计算的方法提取出每个潜在热门话题的特征词组；

步骤五、相似话题的合并

循环遍历潜在的热门话题，合并相似度超过阈值的话题；

步骤六、话题展示

以特征词组中最热门关键词的爆发得分作为话题的热度值，将热点话题按热度值从高到低次序排序输出并显示。

步骤一所述的在组建Hadoop集群平台方法的具体步骤如下：

(1) 为局域网中每一个节点安装ubuntu操作系统；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载