[发明专利]一种微博突发事件检测方法有效
申请号: | 201810490699.2 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108733816B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈红阳 | 申请(专利权)人: | 重庆人文科技学院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 黄河 |
地址: | 401572 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 突发事件 检测 方法 | ||
本申请公开了一种微博突发事件检测方法,包括获取微博文本数据集;基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤;以预设时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集;分别计算目标时间窗内的突发特征词之间的相似度;生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF‑PDF权重等因素对突发特征词识别的影响,提高了突发事件检测的精准度。
技术领域
本发明涉及网络检测技术领域,尤其涉及一种微博突发事件检测方法。
背景技术
微博是近年来兴起的、支持跨平台的信息互动交流的社会化媒体,因其简单、快捷的使用方式,受到广大发布者的青睐。大量新奇、热点时事以及短时爆发的突发事件等首见于此,并及时得到快速传播。采用突发事件检测技术对海量微博文本信息进行归类、组织,识别其所蕴含的突发事件信息呈现给发布者,既可解决信息过载问题,又可为政府、企业、组织机构等部门应对突发事件制定应急决策提供数据支撑,进一步正确引导微博舆情朝向健康方向发展,维护社会秩序,保持和谐与稳定。因此,研究针对微博文本的突发事件检测技术具有重要的理论价值和现实意义。
微博突发事件检测(Burst Event Detection,简称BED),主要是通过一定的检测算法从海量微博数据中挖掘出含有突发性特征的事件,从而识别微博平台中的突发事件。目前,微博突发事件检测技术主要有基于聚类的突发事件检测技术与基于特征的突发事件检测技术两类,且后者是主流的技术,应用较广泛。研究者针对微博噪声去除以及突发特征词识别方面展开了相应的研究,并取得初步成果。《突发事件检测与关键节点挖掘研究》提出基于词性与特定格式的微博噪声数据过滤方法;《基于爆发词识别的微博突发事件监测方法研究》提出基于微博文本字数、发布者粉丝数、标签标注与特定格式的微博噪声数据过滤方法;文献《基于突发特征词与情感分析的微博突发事件监测研究》则提出了基于噪声词典、噪声发布者及特定格式的微博噪声数据过滤方法。这些方法虽一定程度上去除了有碍于微博突发事件检测的噪声数据,但未能充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响。
《中文微博突发事件检测研究》提出基于词频统计、词增长率与TF-PDF权重计算的微博突发特征词识别算法;《基于突发特征词聚类的微博突发事件检测方法》结合发布者影响力和词语的TF-IDF权重,提出基于突发度的微博突发特征词识别算法;《基于突发主题词和凝聚式层次聚类的微博突发事件检测研究》提出基于词频、文本频率、话题标签以及词频增长率特征的微博突发特征词识别算法;《基于KL距离的微博突发话题检测研究》提出基于词频、文本频率、发布者影响力以及TF-PDF的微博突发特征词识别算法。上述方法均是从某几个方面出发,设计微博突发特征词识别算法,有助于微博突发事件的检测,但未能综合考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,有失偏颇。
因此,如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,成为了本领域技术人员亟需解决的问题。
发明内容
针对现有技术存在的上述不足,本发明要解决的技术问题是:如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响。
为解决上述技术问题,本发明采用了如下的技术方案:
一种微博突发事件检测方法,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆人文科技学院,未经重庆人文科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810490699.2/2.html,转载请声明来源钻瓜专利网。