[发明专利]一种基于Hadoop的微博热点话题提取方法有效
申请号: | 201310501234.X | 申请日: | 2013-10-23 |
公开(公告)号: | CN103617169B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 徐明;代光英;任一支;张海平;徐建;郑宁 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙)33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 热点话题 提取 方法 | ||
1. 一种基于Hadoop的微博热点话题提取方法,其特征在于该方法包括如下步骤:
步骤一、组建Hadoop集群平台;
组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;
步骤二、微博数据采集;
利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息,所述的微博来源是指微博平台来源;将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上;
步骤三、数据预处理;
数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引;所述噪音信息就是对微博热点话题提取无用的信息,所述HDFS就是Hadoop平台上的分布式文件系统;
步骤四、话题特征词组提取;
把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;
步骤五、相似话题的合并;
循环遍历潜在的热门话题,合并相似度超过阈值的话题;
步骤六、话题展示;
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
2.根据权利要求1所述的方法,其特征在于:步骤一组建Hadoop集群平台方法的具体步骤如下:
(1) 为局域网中每一个节点安装ubuntu操作系统;
(2) 为局域网中每一个节点安装Hadoop插件;
(3) 为局域网中每一个节点安装JDK插件;
(4) 配置局域网中每个节点上的ubuntu系统的etc文件,使ubuntu系统关联该节点上的Hadoop文件和该节点上的jdk文件;
(5) 配置局域网中每个节点上Hadoop插件中的core-site.xml文件、hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使局域网中存在一个名字节点和多个数据节点;同时设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
3.根据权利要求1所述的方法,其特征在于:步骤三预处理具体是:
采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“@用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度 :
这里的F(w,tn)表示词组w在tn时间段内在微博信息中出现的次数,而F(w,tn-1)表示词组w在前一天tn时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时;
将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310501234.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐光老化陶瓷绝缘子的制备方法
- 下一篇:一种对话文本情感摘要的生成方法