[发明专利]基于字符串字典构建的社交网络突发事件检测方法在审
申请号: | 201910631329.0 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110502703A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 薛哲;杜军平;周立岩;崔婉秋 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F17/27;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突发事件 字符串字典 关联用户 字符串 微博 标签 词频 突发事件检测 标题标记 单词频率 社交网络 中文分词 启发式 中文 帖子 构建 热度 单词 排序 抽取 关联 检测 话题 评论 | ||
本发明提出一种基于字符串字典构建的社交网络突发事件检测方法。为了利用微博标签的特点和中文标题标记的特点,抽取微博话题标签和中文标题中的有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算,突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上,进一步建立了突发事件的计算热点模型,利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。
技术领域
本发明属于事件检测领域中的短文本突发事件检测技术,主要涉及突发词检测、突发词聚类和突发事件排序技术,实现社交网络突发事件的检测。
背景技术
微博作为一种实时互动的社交网络媒体,为用户提供了一个自由发布内容和交换信息的平台。它已经成为人们揭露事件、表达意见和分享经验的首选媒体。很多真实世界的事件都是首先在微博上曝光,再由传统主流媒体报道,比如2018年的滴滴风车事件和重庆公交车坠河事件。基于微博的突发事件检测已成为数据挖掘和机器学习领域的研究热点。
然而,从社交网络上发现突发事件还存在一些挑战。首先,微博帖子通常很短,内容也很丰富,如何从帖子中有效提取事件是极具挑战性的。其次,在微博上有很多普遍的、无意义的噪声,如日常会话等。如何过滤这些噪声是一个很重要的问题。第三,由于不同的事件可能有一些共享的主题组件,所以不同事件之间的相似性很高。如何区分不同的事件也是一个棘手的问题。因此,区分突发事件和非突发内容值得研究。
发明内容
提出了一种基于字符串字典构建的社交网络突发事件检测方法。为了利用社交网络微博标签的特点和中文标题标记的特点,抽取微博话题标签和中文标题中有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算,突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上,进一步建立了突发事件的计算热点模型,利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。
构建一个有意义字符串字典以利用微博标签的特点和中文标题标记的特点。提取“#”与“引号”之间的有意义字符串,作为汉语分词的一种启发式方法。结合有意义字符串字典和突发词得分的计算,用以检测突发词,以提取与突发事件更相关、描述性更强的词汇。提出一种基于字符串字典构建的社交网络突发事件检测方法,该方法具有更高的准确性,描述事件更清晰易懂。
附图说明
图1为方法流程图
具体实施方式
为使本发明的目的、技术方案及算法优点更加清楚明白,下面参照附图对本发明做进一步详细地说明。
我们的突发事件检测方法分为两部分:基于意义字符串字典的突发词检测、突发词聚类与突发事件排序。
1、基于有意义字符串字典的突发词检测
基于有意义字符串字典的突发词检测包括两个部分:有意义字符串字典的构建和突发词得分的计算。为了提高突发性词检测的性能,采用一对“#”和一对引号之间的有意义字符串作为汉语分词的启发式方法,计算突发性词得分后对它们进行加权。在计算词的突发项得分时,减少评语数量的影响和权衡较长的词也是两个增强技巧。有意义字符串提取步骤如下:
步骤一:对于博文数据集中的每一篇博文,使用正则表达式抽取博文中的hashtags和标题,将hashtags/标题加入集合HT;
步骤二:对于集合HT中每一个hashtag/标题,将hashtag/标题分割成词,过滤停用词并将余下词加入集合W;
步骤三:将W中在HT中毗连的词连接起来直到没有任意两个词毗连得到有意义串字典MSD。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910631329.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用户行为预测方法以及装置
- 下一篇:一种基于注意力机制的群组推荐方法及系统