[发明专利]一种社会化媒体分析系统在审

申请号：	201410634592.2	申请日：	2014-10-27
公开（公告）号：	CN104408083A	公开（公告）日：	2015-03-11
发明（设计）人：	李葆青;张跃;胡玲芳;孟丽	申请（专利权）人：	六盘水职业技术学院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	553000 贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种社会化媒体分析系统，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；它能够自动采集数据、整理、分析当前的舆论动向，为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据；为其他领域的数据分析提供一个借鉴和参考。
搜索关键词：	一种社会化媒体分析系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种社会化媒体分析系统，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；其特征在于：S1，数据采集模块的功能是从网页中获取论坛帖子内容，为后面数据分析提供资源。数据采集分为网址采集和内容采集，先采集网址，根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址，有的论坛采集到第二级就是帖子内容网址，采集步骤如下：1)输入初始化种子，采集一级网址，一级网址入库；2)如果一级网址是帖子内容网址，直接走向8)，否则继续3)；3)根据一级网址，采集二级网址，二级网址入库；4)如果二级网址是帖子内容网址，直接走向8)，否则继续5)；5)根据二级网址，采集三级网址，三级网址入库；6)如果三级网址是帖子内容网址，直接走向8)，否则继续7)；7)根据三级网址，采集四级网址，四级网址入库；8)采集帖子内容，采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区；S2，数据整理模块：在数据整理中，主要是对采集到的数据进行提纯，采集到的论坛数据无意义的词比较多，需要进行分词^[1]，通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下：1)分词，系统采用采用ICTCLAS进行中文分词，分词正确率高达97.58％(973专家组评测结果)另外，考虑到互联网不断有网络专用语和固定搭配出现，将积累并整理过的网络专用语加入了分词用户词典，以此提高分词的性能；2)过滤停用词：停用词是指那些对文本主题没有贡献的词，例如：的、地、得，通过对停用词的过滤，不仅可以减少文本特征的维度，而且可以减少计算量。3)同义词合并：在分词中，同义词比较多，对同义词的合并能够减少关键词的数量，提高后期聚类的准确性S3，数据分析模块是社会化媒体分析系统的关键，主要涉及到帖子文本特征的提取，提取特征的方法有多种，例如TF‑IDF，互信息、信息熵，在这篇文章中采用TF‑IDF，它涉及到向量空间模型，向量空间模型的思想是用向量的形式来描述文档，即将文档表示成形如(w₁，w₂，w₃，…)的形式，其中w_i是出现在文档中的各个词的权重。TF称为词频，用于计算该词描述文档内容的能力，IDF称为反文档频率，用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上：在一个文本中出现很多次的单词，在另一个同类文本中出现次数也会很多，反之亦然。所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点，目前通常使用的是TF‑IDF公式来计算权重。TF‑IDF公式有多种形式，最常用的公式形式如下：

<mrow><mi>W</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>×</mo><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow></mrow><msqrt><msub><mi>Σ</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>d</mi></mrow></msub><mo>[</mo><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>×</mo><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow><msup><mo>]</mo><mn>2</mn></msup></msqrt></mfrac></mrow>

其中，W(t，d)为词t在文本d中的权重，而tf(t，d)为词t在文本d中的词频，N为文本的总数，n_t为文本集中出现词t的文本数，分母为归一化因子。提取特征后，需要对这些帖子进行识别分类，系统中使用k‑mean聚类方法来进行分类，k‑means算法的核心思想是把一个数据对象划分为k个聚类，使每个聚类中的数据点到该聚类中心的平方和最小，算法处理过程：输入：聚类个数k，包含n个数据对象的数据集。输出：k个聚类。1)从n个数据对象中任意选取k个对象作为初始的聚类中心。2)分别计算每个对象到各个聚类中心的距离，把对象分配到距离最近的聚类中。3)所有对象分配完成后，重新计算k个聚类的中心。4)与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转(2)，否则转(5)。5)输出聚类结果；分完类，需要进行一系列话题热度评分，评出哪一类帖子最受大家的浏览和回帖，最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数，然后评选出最靠前的帖子类，并以帖子类中最热门的前5个关键词作为此类贴的关键词，同时找出此类贴中最热门的一个帖子作为关键贴。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于六盘水职业技术学院，未经六盘水职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410634592.2/，转载请声明来源钻瓜专利网。

上一篇：一种截断一维Debye介质Crank-Nicolson完全匹配层实现算法
下一篇：一种数据备份方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种社会化媒体分析系统在审

专利文献下载