[发明专利]一种基于Hadoop的微博热点话题提取方法有效
申请号: | 201310501234.X | 申请日: | 2013-10-23 |
公开(公告)号: | CN103617169B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 徐明;代光英;任一支;张海平;徐建;郑宁 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙)33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于Hadoop的微博热点话题挖掘方法。本发明首先组建一个局域网,安装相应的软件搭建Hadoop的平台;其次采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取;第四根据提取出每个潜在热门话题的特征词组;第五循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,将热点话题按热度值从高到低次序显示。本发明利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。 | ||
搜索关键词: | 一种 基于 hadoop 热点话题 提取 方法 | ||
【主权项】:
一种基于Hadoop的微博热点话题提取方法,其特征在于该方法包括如下步骤:步骤一、组建Hadoop集群平台;组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;步骤二、微博数据采集;利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息,所述的微博来源是指微博平台来源;将采集当天的微博使用Hadoop分布式文件命令dfs‑put将数据集上传至Hadoop平台的各个节点上;步骤三、数据预处理;数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引;所述噪音信息就是对微博热点话题提取无用的信息,所述HDFS就是Hadoop平台上的分布式文件系统;数据预处理具体方法是:采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”、“http://”、“@用户”的噪音信息,以及在特定时间段频繁出现的词,“#”表示一个讨论的话题、“http://”表示已有的新闻等其他消息、“@用户”表示对话式的互动;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度值BurstScore(w,tn):BurstScore(w,tn)=F(w,tn)-F(w,tn-1)F(w,tn-1)+1]]>F(w,tn)表示词组w在tn时间段内在微博信息中出现的次数,而F(w,tn‑1)表示词组w在前一天tn时间段内在微博信息中出现的次数;时间窗口设置为一个小时;将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理;步骤四、话题特征词组提取;把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;话题特征词组提取具体方法是:以每一个关键词为搜索条件在HDFS上已经建好的索引中搜索出相关微博信息,将搜索出的微博信息看作该关键词的相关文档;计算该相关文档的平均相似度,当平均相似度低于预设的阈值时就认为该文档里信息不是噪音信息而是一个潜在的话题,然后利用基于特征提取方法从所述相关文档中提取该话题的特征词汇集,并计算每个特征词汇的权值;所述相关文档的平均相似度是指文档中所有两两相邻微博之间的相似度总和除以相关文档中的微博总数得到的值;所述的微博相似度是指两条微博中相同词语的个数除以微博中总的词语个数得到的值;这里所述话题特征词汇集提取及特征词汇权值计算是指以下步骤:步骤A:对词频进行归一化计算;将关键词对应的相关文档作为一个语料库,词条n的归一化词频为tfn=N(n)/N;这里N(n)表示词条n在此语料库中出现的次数,N表示此语料库中所有词条出现次数的总和;步骤B:逆向文档频率计算;预先准备人工挑选出的典型话题文档作为语料库,典型话题语料库中的每一篇文档对应一个人工挑选出的典型话题,同一文档都是由人工挑选的同一典型话题的微博组成的,每条微博占一行;语料库中词条n的逆向文档频率为idfn=log[|N|/(1+NL(n))];这里NL(n)是指典型话题语料库中包含词条n的文档个数;|N|是典型话题语料库中文档个数;步骤C:计算词汇权值,提取话题特征词汇集;词条TFIDF值=词频×逆向文档频率,即tfidfn=tfn*idfn;所述的提取话题特征词汇集就是根据每个话题的词汇权值从大到小选取的话题特征词汇组成的集合,每个话题至少选取5个话题特征词汇;步骤五、相似话题的合并;循环遍历潜在的热门话题,合并相似度超过阈值的话题,具体方法是:循环计算两话题相似度,当相似度超过预设阈值时合并此两个话题,直到任意两话题的相似度都小于预设阈值为止;所述的两个话题的相似度是指两个话题对应的特征词汇集中相同的词汇数除以两个话题的特征词汇总个数;所述的两话题合并是指将第二个话题中的特征词汇补充到第一个话题的特征词汇集中,然后删掉第二个话题;步骤六、话题展示;以特征词组中最热门关键词的爆发程度值作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310501234.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种耐光老化陶瓷绝缘子的制备方法
- 下一篇:一种对话文本情感摘要的生成方法