[发明专利]一种社会化媒体分析系统在审

专利信息
申请号: 201410634592.2 申请日: 2014-10-27
公开(公告)号: CN104408083A 公开(公告)日: 2015-03-11
发明(设计)人: 李葆青;张跃;胡玲芳;孟丽 申请(专利权)人: 六盘水职业技术学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 553000 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种社会化媒体分析系统,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;它能够自动采集数据、整理、分析当前的舆论动向,为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据;为其他领域的数据分析提供一个借鉴和参考。
搜索关键词: 一种 社会化 媒体 分析 系统
【主权项】:
一种社会化媒体分析系统,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;其特征在于:S1,数据采集模块的功能是从网页中获取论坛帖子内容,为后面数据分析提供资源。数据采集分为网址采集和内容采集,先采集网址,根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址,有的论坛采集到第二级就是帖子内容网址,采集步骤如下:1)输入初始化种子,采集一级网址,一级网址入库;2)如果一级网址是帖子内容网址,直接走向8),否则继续3);3)根据一级网址,采集二级网址,二级网址入库;4)如果二级网址是帖子内容网址,直接走向8),否则继续5);5)根据二级网址,采集三级网址,三级网址入库;6)如果三级网址是帖子内容网址,直接走向8),否则继续7);7)根据三级网址,采集四级网址,四级网址入库;8)采集帖子内容,采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区;S2,数据整理模块:在数据整理中,主要是对采集到的数据进行提纯,采集到的论坛数据无意义的词比较多,需要进行分词[1],通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下:1)分词,系统采用采用ICTCLAS进行中文分词,分词正确率高达97.58%(973专家组评测结果)另外,考虑到互联网不断有网络专用语和固定搭配出现,将积累并整理过的网络专用语加入了分词用户词典,以此提高分词的性能;2)过滤停用词:停用词是指那些对文本主题没有贡献的词,例如:的、地、得,通过对停用词的过滤,不仅可以减少文本特征的维度,而且可以减少计算量。3)同义词合并:在分词中,同义词比较多,对同义词的合并能够减少关键词的数量,提高后期聚类的准确性S3,数据分析模块是社会化媒体分析系统的关键,主要涉及到帖子文本特征的提取,提取特征的方法有多种,例如TF‑IDF,互信息、信息熵,在这篇文章中采用TF‑IDF,它涉及到向量空间模型,向量空间模型的思想是用向量的形式来描述文档,即将文档表示成形如(w1,w2,w3,…)的形式,其中wi是出现在文档中的各个词的权重。TF称为词频,用于计算该词描述文档内容的能力,IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点,目前通常使用的是TF‑IDF公式来计算权重。TF‑IDF公式有多种形式,最常用的公式形式如下:<mrow><mi>W</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow></mrow><msqrt><msub><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>d</mi></mrow></msub><mo>[</mo><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow><msup><mo>]</mo><mn>2</mn></msup></msqrt></mfrac></mrow>其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为文本的总数,nt为文本集中出现词t的文本数,分母为归一化因子。提取特征后,需要对这些帖子进行识别分类,系统中使用k‑mean聚类方法来进行分类,k‑means算法的核心思想是把一个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小,算法处理过程:输入:聚类个数k,包含n个数据对象的数据集。输出:k个聚类。1)从n个数据对象中任意选取k个对象作为初始的聚类中心。2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。3)所有对象分配完成后,重新计算k个聚类的中心。4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。5)输出聚类结果;分完类,需要进行一系列话题热度评分,评出哪一类帖子最受大家的浏览和回帖,最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数,然后评选出最靠前的帖子类,并以帖子类中最热门的前5个关键词作为此类贴的关键词,同时找出此类贴中最热门的一个帖子作为关键贴。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于六盘水职业技术学院,未经六盘水职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410634592.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top