[发明专利]一种面向大规模社交媒体数据的简化可视分析方法有效
| 申请号: | 201911106637.8 | 申请日: | 2019-11-13 |
| 公开(公告)号: | CN110968694B | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 周志光;张欣隆;郭智勇;郑微桦 | 申请(专利权)人: | 浙江财经大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06Q50/00 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 大规模 社交 媒体 数据 简化 可视 分析 方法 | ||
本发明公开了一种面向大规模社交媒体数据的简化可视分析方法,该方法为:利用LDA模型对大规模社交媒体数据进行文本主题分析,并将结果投影至低维空间以直观地呈现主题的分布特征;量化和统计不同主题特征分布,设计高效的采样模型对大规模社交媒体数据进行采样,在维持大规模社交媒体数据空间分布的同时,尽可能地保持原始数据的主题特征分布;设计可视化与交互分析系统工具,集成主题分析和采样模型,设计主题河流图、柱状图、矩阵图、主题环图等可视化图形接口,从主题特征分布、时序演化、空间分布等不同角度对采样结果进行评估,支持用户对大规模具有地理标签的社交媒体数据进行简化和探索式分析。
技术领域
本发明属于新闻传播、图形学与可视化技术领域,尤其涉及一种面向大规模社交媒体数据的简化可视分析方法。
背景技术
社交媒体在人们生活中的运用及影响已远远超出人们的想象,随着时代的不断发展和社会的不断进步,社交媒体已渐渐成为人们的生活中不可或缺的一部分。李夏等将社交媒体数据通过Hadoop实现数据存储分析,从而高效优化Solr搜索引擎的索引生成,进一步对社会关系网格、用户群、用户情感、客户城市地图和话题趋势等进行分析;Amir等使用了一种多方法的数据分析方法来获得社交媒体数据中与流感相关的数据和实际流感爆发两种趋势之间的时空相关性,以此解释流感季节的行为模式,减少流感的传播与影响;Xu等提出了一种基于众包的城市突发事件计算算法,能够在社交媒体数据中有效的识别和传递时间信息,帮助特定的社会群体或政府有效的处理突发事件;Markus等通过过滤、聚类分析等方法对社交媒体数据进行处理,从而快速评估飓风哈维和伊尔玛所造成的损失。
社交媒体数据在实时传播信息方面发挥了重要作用,然而由于其具有规模大、实时性强和数据非结构化的特点,常见的数据挖掘方法在处理它们时不再适用。为了对社交媒体数据进行有效的分析,帮助人们快速掌握数据的本质,许多针对社交媒体数据的简化方法随之产生。马慧芳等提出了一种基于离散PSO(DPSO)的微博热点话题发现算法,该算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚类质量评价指标作为适应函数对聚类结果进行不断迭代优化,从而得到微博数据简化的最优解;张叶等利用AFF函数融合多模态特征,考虑Twitter数据的语义相似性与时空接近性,从异构网格转换为同构网格,在保留关键信息的同时简化Twitter数据;Soliman等利用DBSCAN算法对Twitter数据进行聚类分析,简化后的Twitter数据表明,人类的活动不是随机的而是集群的;刘锐等将原本应用于网页的PageRank算法简化后引入微博信息进行聚类分析,提出了基于对象加权的微博信息聚类算法,在简化了计算的同时降低了计算难度,提高了聚类计算的准确性,有效简化微博数据并获取舆情。
然而,由于带有地理标签的社交媒体数据的规模不断增加,视觉映射元素彼此重叠,这在很大程度上干扰了分析者对局部地区所发生的特定事件的感知和评估。例如,当灾害发生时,灾害相关的社交媒体数据集的实际空间分布看似均匀的,这意味着分析师可能无法有效聚焦重点区域。因此,在地图视图中以可视方式呈现大规模的带有地理标签的社交媒体数据集是一项艰巨的任务,这是从空间信息学到可视分析等研究领域中的一个热门话题。
发明内容
本发明针对现有技术的不足,提供了一种面向大规模社交媒体数据的简化可视分析方法。
为实现上述目的,本发明所采取的技术方案是:一种面向大规模社交媒体数据的简化可视分析方法,具体包括如下步骤:
(1)利用LDA主题模型对大规模社交媒体数据进行文本语义分析,获得文本的主题向量表示,并将每个文本划分到其主题向量中最大值所对应的维度,获得每个文本所对应的主题特征;再利用t-SNE模型将文本的主题向量投影至低维空间,并根据低维空间中的数据分布来计算不同主题特征下的分布方差,以此衡量数据的主题特征分布。
(2)设计高效采样模型对大规模社交媒体数据进行采样,在简化大规模社交媒体数据规模的基础上,维持大规模社交媒体数据的主题特征分布,且维持大规模社交媒体数据的时空分布特征,具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江财经大学,未经浙江财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911106637.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种西红柿花生酱的制备方法
- 下一篇:一种单光子安全通信随机选择演示装置





