[发明专利]一种基于社会媒体平台的社会事件的跟踪和演变方法在审
申请号: | 201510727321.6 | 申请日: | 2015-10-30 |
公开(公告)号: | CN105354280A | 公开(公告)日: | 2016-02-24 |
发明(设计)人: | 徐常胜;钱胜胜;张天柱 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 媒体 平台 事件 跟踪 演变 方法 | ||
技术领域
本发明属于社会事件挖掘与演变技术领域,涉及一种基于社会媒体平台的社会事件的挖掘和演变方法。
背景技术
随着互联网的快速普及,社交媒体网站(如Flickr,YouTube,Facebook,和谷歌新闻)的兴起,人们能够在线方便地产生和分享社交多媒体内容。网络中的社交媒体平台存储着大量的多样的事件内容信息,发生在我们身边及世界上的传播极快的流行事件,和大量的多模态数据的(如图像,视频和文本)社会事件。在实际应用中,由用户上传的大部分的多媒体内容都与一些具体的社会事件相关,人们手动去识别和聚集这些内容会十分消耗时间。例如,用户或许想知道整个“2011英格兰暴乱”的始末。当他们在谷歌新闻利用搜索引擎使用切确的关键词获取最近事件的相关信息时,他们通常得到很多杂乱的文档。尤其是获得的所有结果都是关于最近的信息,但是与此事件相关的信息则非常少;进一步,对于用户来说阅读如此多的文档是十分耗时的,用户也很难把握住事件的演变趋势。所以如果我们能把事件的演变趋势通过随时间变化的主题模式可视化地表现出来,将大大有利于用户,这也是我们事件追踪及演变的目标。给定一个故事用以初始化整个事件,我们需要识别出描述同一事件的大量故事信息,并挖掘事件主题模式,从而获得事件随时间演变的过程,然后自动地可视化这些信息。对于事件“2011英格兰暴乱”,我们可以获知在不同城市随时间的主题演变。总的来说,事件挖掘和演变分析不但要从大量的社交媒体的数据中自动挖掘和识别社会事件,这对于用户和政府更好地浏览搜索和监控社会事件十分重要且有帮助,而且需要获取社会事件随时间的演变趋势并生成详尽有效的事件总结。
现有的社会事件的挖掘和演变方法只是使用了单个平台的文本信息。在文本信息理解上,聚类技术是数据挖掘以及模式识别的基本技术,通过对文本信息进行聚类来得到社会事件的主题。传统的聚类方法对于社会事件的爆发性和区域性等特性,其主题挖掘精确度不高,很难对一个完整事件进行其语义描述。因为除了文本信息,事件也有其丰富的视觉信息。对一个事件来说,其在不同的网站会有不同的用户评论,然而,这两个网站可能有非常相似的视觉信息,比如,图像或者视频,这些信息作为在不同时间不同地点为构建事件之间的联系是非常有用的。例如,事件“2012年美国总统大选”,这个事件的各个条目关于奥巴马的图像是很大地关联的。因此,采用多模态信息融合更能正确地对社会事件进行描述。许多主题模型方法被提出用以解决社会事件的多模态主题分析,这些传统的主题模型方法仅用到短的文本,基本上都是与分类标签或者图片中物体标签相关联的。然而在更复杂的实际场景中,伴随有更为丰富的文本信息,特别是来自谷歌新闻的大部分多模态的事件文档。每个事件文档包含了长文本和与之对应的图片,且文本和图片并不满足关联的限制。所以我们不能轻易地直接采用传统的主题模型方法。实际上,我们可以发现奥巴马和纽约都能很好地被文字和图片表述,然而经济则只能用文本表述。这预示着奥巴马和纽约在文本和图片模式上存在关联,称为语义代表性。我们可以把这些包含明确而清晰的视觉对应部分的主题描述看作代表性的视觉-文本主题;另一方面,文字图像没有明确对应的,如经济,政治,选举等,我们称为代表性的非视觉主题,这些主题都是能够被文字信息合理描述,但很难用图像表达的。在对社会媒体文档进行建模中,现有的模型只能获取视觉代表主题而放弃非视觉代表主题,并且也忽视了大部分的文本信息。为了解决上述问题,我们提出了新颖的主题建模方法,即基于事件的多模态主题模型(multi-modalEventTopicModel,mmETM),来有效地挖掘多模态的文本和视觉信息,并且同时考虑代表性的视觉-文本主题和代表性的非视觉主题。因此,通过采用新颖的主题建模方法,基于社会媒体平台的社会事件的跟踪和演变方法有效地弥补了传统方法的不足,实现了基于多模态信息语义融合的事件主题的可视化。
发明内容
(一)要解决的技术问题
本发明提出了一种基于社会媒体平台的社会事件的挖掘和演变方法。针对社会媒体数据的多模态特性,提出了一个基于事件的多模态主题模型mmETM,能够有效地对包含长文本和与之相关的图片的多模态数据挖掘其文本和图片的联系,区分出代表性的视觉-文本主题和代表性的非视觉主题。在mmETM模型的基础上,提出了一个基于多模态主题模型(mmETM)的在线推断算法,针对时序性的社会事件挖掘其多模态的文本和视觉主题,把整个事件过程可视化显示,以一种清晰的、图形化的界面展示给用户,让用户能够快速地了解和分析整个事件的演变过程。
(二)技术方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510727321.6/2.html,转载请声明来源钻瓜专利网。