[发明专利]一种基于Hadoop的微博热点话题提取方法有效

专利信息
申请号: 201310501234.X 申请日: 2013-10-23
公开(公告)号: CN103617169B 公开(公告)日: 2017-04-05
发明(设计)人: 徐明;代光英;任一支;张海平;徐建;郑宁 申请(专利权)人: 杭州电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州君度专利代理事务所(特殊普通合伙)33240 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 热点话题 提取 方法
【权利要求书】:

1. 一种基于Hadoop的微博热点话题提取方法,其特征在于该方法包括如下步骤:

步骤一、组建Hadoop集群平台;

组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;

步骤二、微博数据采集;

利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息,所述的微博来源是指微博平台来源;将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上;

步骤三、数据预处理;

数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引;所述噪音信息就是对微博热点话题提取无用的信息,所述HDFS就是Hadoop平台上的分布式文件系统;

步骤四、话题特征词组提取;

把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;

步骤五、相似话题的合并;

循环遍历潜在的热门话题,合并相似度超过阈值的话题;

步骤六、话题展示;

以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。

2.根据权利要求1所述的方法,其特征在于:步骤一组建Hadoop集群平台方法的具体步骤如下:

(1) 为局域网中每一个节点安装ubuntu操作系统;

(2) 为局域网中每一个节点安装Hadoop插件;

(3) 为局域网中每一个节点安装JDK插件;

(4) 配置局域网中每个节点上的ubuntu系统的etc文件,使ubuntu系统关联该节点上的Hadoop文件和该节点上的jdk文件;

(5) 配置局域网中每个节点上Hadoop插件中的core-site.xml文件、hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使局域网中存在一个名字节点和多个数据节点;同时设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。

3.根据权利要求1所述的方法,其特征在于:步骤三预处理具体是:

采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“@用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度                                               :

这里的F(w,tn)表示词组wtn时间段内在微博信息中出现的次数,而F(w,tn-1)表示词组w在前一天tn时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时;

将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310501234.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top