[发明专利]基于社会媒体微博特定话题的摘要方法在审
申请号: | 201810039498.0 | 申请日: | 2018-01-16 |
公开(公告)号: | CN107992634A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 贺瑞芳;段兴义;张雪菲;李三飞 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津才智专利商标代理有限公司12108 | 代理人: | 王顕 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社会 媒体 特定 话题 摘要 方法 | ||
技术领域
本发明涉及自然语言处理以及社会媒体文本挖掘领域,具体为一种基于社会媒体微博特定话题的摘要方法。
背景技术
随着社交媒体平台的快速发展,比如,微博、Twitter等,其快捷、方便的特性使得人们获取信息的途径逐渐依赖于这些平台。与此同时,由于微博用户数量庞大,当一个事件发生时,会在短时间内涌现大量相关的微博来描述该事件话题的各个方面,充分体现了微博的大规模、实时性、碎片化及短文本的弱规范性。
社会媒体的发展由于人们频繁的交互和互相影响产生了更强的冗余性,海量的微博,容易把人们淹没在信息中,使得想要快速捕捉关键信息变得很困难。社会媒体微博摘要面向特定话题,旨在从话题相关的社会媒体短文本中提炼简洁、核心的微博集,以捕捉有效信息,可用于竞争情报分析、电子商务等;同时,也可协助政府监管危机事件,从而降低灾难损失、给出有益的反馈,并把控舆情方向。
文本摘要研究的重点是产生的摘要内容需要满足覆盖性、重要性及多样性等。覆盖性使得摘要尽可能地代表原始的文本数据集;重要性使得摘要内容更关键、更核心;多样性使得摘要内容冗余信息较少、新颖性更强。由于微博的大规模、内容嘈杂、不规范及简短等特点,使得传统的摘要方法不能直接迁移到社会媒体情景中。因此,产生满足上述几个特性要求的微博摘要方法面临更为严峻的挑战,急需发展新的摘要技术。
近年来微博摘要的相关研究主要包括:(1)基于文本信息的方法,这类方法主要是把传统摘要方法迁移到微博环境中,或者稍作改进,比如Hybrid TF-IDF;(2)基于社交媒体静态信息的方法,其主要引入了社交媒体中的静态特征,比如转发数、粉丝数等;(3)基于社交媒体动态信息的方法,这类方法主要引入了用户网络结构,比如转发关系、跟从关系等,基本思想是用户权威度越高,微博重要性越高。
以上方法主要考察了重要性,对于多样性则更多地是采用外部方法,例如最大边缘相关性(Maximal Marginal Relevance,MMR),很少有把覆盖性、重要性及多样性整合到统一的优化模型中的方法;除此之外,这些方法没有利用社交媒体中潜在的微博网络结构,而该结构可能包含更多的语义线索。
发明内容
为了解决上述技术问题,本发明提供一种基于社会媒体微博特定话题的摘要方法,其基于稀疏重构的基本框架融合了社会媒体内容和社交网络结构,得到的微博摘要相较于现有模型在ROUGE-1,ROUGE-2和ROUGE-SU4三个评价指标中最趋近于专家互评结果。
该发明的技术方案如下:
(1)微博特定话题的筛选方法及社会学理论的验证
为了筛选特定微博话题做摘要研究,我们主要从三方面做数据准备:话题初步筛选、数据清洗和社会学理论验证。
a.话题初步筛选阶段,根据标签(hashtag)和关键词,筛选包含该标签或关键词的微博,并对一个月内每天包含该话题的微博数做时序分析,发现话题被分为两大类:热点话题和突发话题。对于热点话题,我们筛选该话题发生当天前后共五天内的微博作为该话题数据集;对于突发话题,筛选该话题发生后五天内的微博作为该话题数据集。
b.数据清洗阶段,我们对话题集作如下处理:1、去掉重复出现的微博,只保留一次;2、去掉除标签、关键词、提及(@)、URL、停用词后微博内容少于三个单词数的微博;3、去掉孤立用户及其相应的微博,并不断重复此步骤直到所有用户至少与其中一个用户有关联(用户之间通过粉丝、关注关系进行关联)。
c.社会学理论验证阶段,在社会媒体情景下,我们重新定义了相关的理论为:表达一致性和表达传染性;并对话题集进行该社会学理论的验证。由于我们的模型提出使用社会学理论,而只有这两种理论都存在于数据集中,才会发挥模型效果。
社会学理论指出社会网络中成员之间通常会展现出相关的行为,情感和话题都会随着网络进行传播。一致性一般认为,同一个人在短时间内表现出的社会行为具有一致性;传染性一般认为,具有朋友关系的两个人可以对彼此产生影响。我们主要考查对于每个话题集,社会学理论是否存在,并且给出验证方法。首先对于我们的任务,重新定义了一致性和传染性,本发明的话题微博,均以微博为例:
·表达一致性:同一用户所发的两个微博在内容上是否比随机选择的两个微博更相似?
·表达传染性:具有朋友关系的两个用户所发的微博在内容上是否比随机选择的两个微博更相似?
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810039498.0/2.html,转载请声明来源钻瓜专利网。