[发明专利]一种社会化媒体分析系统在审
申请号: | 201410634592.2 | 申请日: | 2014-10-27 |
公开(公告)号: | CN104408083A | 公开(公告)日: | 2015-03-11 |
发明(设计)人: | 李葆青;张跃;胡玲芳;孟丽 | 申请(专利权)人: | 六盘水职业技术学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 553000 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种社会化媒体分析系统,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;它能够自动采集数据、整理、分析当前的舆论动向,为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据;为其他领域的数据分析提供一个借鉴和参考。 | ||
搜索关键词: | 一种 社会化 媒体 分析 系统 | ||
【主权项】:
一种社会化媒体分析系统,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;其特征在于:S1,数据采集模块的功能是从网页中获取论坛帖子内容,为后面数据分析提供资源。数据采集分为网址采集和内容采集,先采集网址,根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址,有的论坛采集到第二级就是帖子内容网址,采集步骤如下:1)输入初始化种子,采集一级网址,一级网址入库;2)如果一级网址是帖子内容网址,直接走向8),否则继续3);3)根据一级网址,采集二级网址,二级网址入库;4)如果二级网址是帖子内容网址,直接走向8),否则继续5);5)根据二级网址,采集三级网址,三级网址入库;6)如果三级网址是帖子内容网址,直接走向8),否则继续7);7)根据三级网址,采集四级网址,四级网址入库;8)采集帖子内容,采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区;S2,数据整理模块:在数据整理中,主要是对采集到的数据进行提纯,采集到的论坛数据无意义的词比较多,需要进行分词[1],通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下:1)分词,系统采用采用ICTCLAS进行中文分词,分词正确率高达97.58%(973专家组评测结果)另外,考虑到互联网不断有网络专用语和固定搭配出现,将积累并整理过的网络专用语加入了分词用户词典,以此提高分词的性能;2)过滤停用词:停用词是指那些对文本主题没有贡献的词,例如:的、地、得,通过对停用词的过滤,不仅可以减少文本特征的维度,而且可以减少计算量。3)同义词合并:在分词中,同义词比较多,对同义词的合并能够减少关键词的数量,提高后期聚类的准确性S3,数据分析模块是社会化媒体分析系统的关键,主要涉及到帖子文本特征的提取,提取特征的方法有多种,例如TF‑IDF,互信息、信息熵,在这篇文章中采用TF‑IDF,它涉及到向量空间模型,向量空间模型的思想是用向量的形式来描述文档,即将文档表示成形如(w1,w2,w3,…)的形式,其中wi是出现在文档中的各个词的权重。TF称为词频,用于计算该词描述文档内容的能力,IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点,目前通常使用的是TF‑IDF公式来计算权重。TF‑IDF公式有多种形式,最常用的公式形式如下:![]()
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为文本的总数,nt为文本集中出现词t的文本数,分母为归一化因子。提取特征后,需要对这些帖子进行识别分类,系统中使用k‑mean聚类方法来进行分类,k‑means算法的核心思想是把一个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小,算法处理过程:输入:聚类个数k,包含n个数据对象的数据集。输出:k个聚类。1)从n个数据对象中任意选取k个对象作为初始的聚类中心。2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。3)所有对象分配完成后,重新计算k个聚类的中心。4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。5)输出聚类结果;分完类,需要进行一系列话题热度评分,评出哪一类帖子最受大家的浏览和回帖,最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数,然后评选出最靠前的帖子类,并以帖子类中最热门的前5个关键词作为此类贴的关键词,同时找出此类贴中最热门的一个帖子作为关键贴。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于六盘水职业技术学院,未经六盘水职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410634592.2/,转载请声明来源钻瓜专利网。