[发明专利]一种微博突发事件检测方法有效

申请号：	201810490699.2	申请日：	2018-05-21
公开（公告）号：	CN108733816B	公开（公告）日：	2022-02-01
发明（设计）人：	陈红阳	申请（专利权）人：	重庆人文科技学院
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/35
代理公司：	重庆博凯知识产权代理有限公司 50212	代理人：	黄河
地址：	401572 重庆***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种突发事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种微博突发事件检测方法，其特征在于，包括：

步骤1：获取微博文本数据集D；

步骤2：基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤；该步骤包括：

提取微博文本数据集D中微博文本的类别信息；

基于所述类别信息去除微博文本数据集D中预设类别的微博文本；

提取微博文本数据集D中微博文本的字数信息；

基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本；

计算微博文本数据集D中微博文本的文本影响力评分Quality_text；

基于所述文本影响力评分Quality_text去除微博文本数据集D中文本影响力评分Quality_text小于预设评分阈值的微博文本，完成微博文本数据集D的噪声过滤；

文本影响力评分

代表微博文本的发布者影响力，即发布者被关注数U_follow与发布者关注数U_attention比值的对数，表示微博文本的关注度，即微博文本的评论数Comment_text、转发数Forward_text、收藏数Collect_text与点赞数Prize_text的总和的对数与微博数据集D中所有微博文本的评论数Comment_i1、转发数Forward_i1、收藏数Collect_i1与点赞数Prize_i1的总和的对数的比值，而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重，i1＝1,2，3，……n1，n1为微博文本数据集D中的微博文本的数量；

步骤3：以预设时长建立多个时间窗，将微博文本数据集D中的微博文本划分至相应的时间窗中；

步骤4：对每个时间窗内的微博文本进行预处理；该步骤包括：

对时间窗内的微博文本进行切词获得微博文本词集；

基于预设的词语情感数据库与微博文本词集进行对比，获得微博文本词集的情感信息；

基于预设的命名实体词库与话题标签库与微博文本词集进行对比，获得微博文本词集的词属性信息，词属性信息记录了微博文本词集是否包括命名实体词，以及微博文本词集中是否有词语属于话题标签，所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语；

步骤5：基于预设特征属性提取每个时间窗的突发特征词集BT_i3，i3＝1,2，3，……n3，n3为时间窗的数量，每个突发特征词集包括多个突发特征词；该步骤包括：

分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率；

遍历每个时间窗的微博文本词集中的每个词，将词频与文本频率满足预设条件的词作为候选突发特征词，并形成每个时间窗的候选突发特征词集BW_set；

基于候选突发特征词集BW_set中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值W_i2，i2＝1,2，3，……n2，n2为候选突发特征词集BW_set中的候选突发特征词的数量，其中，W_i2表示时间窗内任意候选突发特征词w_i2的权重，D表示微博数据集，n_i2j6表示候选突发特征词w_i2在任意微博文本j6中的词频，N_j6表示所有微博文本的数量，H_i2j6在表示候选突发特征词w_i2在微博文本j6中的命名实体权重因子，若候选突发特征词w_i2为命名实体，则取值为1，否则为0；E_i2j6在表示候选突发特征词w_i2在文本j6中的话题标签权重因子，若候选突发特征词w_i2包括话题标签，则取值为1，否则为0；K表示微博文本j6中的总词数，F_k2j6表示微博文本j6中的第k2个词；

计算候选突发特征词集BW_set每个候选突发特征词的词频增长率Z_i2，其中，Z_i2表示候选突发特征词w_i2的词频增长速率，F_i2i3表示候选突发特征词w_i2在时间窗口T_i3中的词频，T_i3为任意一个时间窗口，k3表示时间窗口T_i3之前时间的时间窗口数；

计算候选突发特征词集BW_set每个候选突发特征词的关注度G_i2，其中Comment_i2，Forward_i2，Collect_i2，Prize_i2分别为候选突发特征词w_i2所在微博文本的评论数、转发数、收藏数与点赞数，Comment_i2^j6，Forward_i2^j6，Collect_i2^j6，Prize_i2^j6分别为含候选突发特征词w_i2的第j6个微博文本的评论数、转发数、收藏数与点赞数，DD为当前计算的时间窗口中微博文本总数；

计算候选突发特征词集BW_set每个候选突发特征词的情感权重值E_i2，其中DD为当前计算的时间窗口中微博文本总数，e_j6ⁱ²为含有候选突发特征词w_i2的第j6条微博文本的情感倾向值，emotion(i2)为候选突发特征词w_i2的情感倾向值，mm为第j6条微博文本中词的总个数；

计算候选突发特征词的突发权重Bursty_i2＝γ₁×W_i2+γ₂×Z_i2+γ₃×G_i2+γ₄×E_i2，其中，γ₁+γ₂+γ₃+γ₄＝1，γ₁是TF-PDF权重值W_i2的权重、γ₂是词频增长率Z_i2的权重、γ₃是关注度G_i2的权重、γ₄是情感权重值E_i2的权重；

将突发权重Bursty_i2大于预设权重的候选突发特征词作为突发特征词，形成时间窗的突发特征词集BT_i3；

步骤6：使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度；该步骤包括：

基于公式计算突发特征词之间的相似度Sim(w_i4,w_j4)，式中，w_i4,w_j4表示同一个突发特征词集中的任意两个突发特征词，|P^t|表示此时间窗内的微博文本数，p_k则此时间窗中同时含有突发特征词w_i4及w_j4的微博文本数；

步骤7：基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类，生成目标时间窗的突发事件。

2.如权利要求1所述的微博突发事件检测方法，其特征在于，步骤7包括：

步骤(1)：将时间窗内每个词作为一个簇；

步骤(2)：基于公式计算任意两个簇C_i5及C_j5的相似度Sim(C_i5,C_j5)，|C_i5×C_j5|表示任意两个簇C_i5及C_j5中词语数量的乘积，w_i5,w_j5分别是对应簇C_i5,C_j5中的任意一个突发特征词；

步骤(3)：将相似度最大的两个簇合并，

步骤(4)：再次计算任意两个簇的相似度，若此时新的相似度最大的两个簇的相似度小于相似度阈值，则执行步骤(3)，否则执行步骤(5)；

步骤(5)：去除突发特征词小于预设特征词阈值的簇，基于剩余的簇生成对应时间窗的突发事件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆人文科技学院，未经重庆人文科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810490699.2/1.html，转载请声明来源钻瓜专利网。

上一篇：交互方法、装置、终端、服务器及计算机可读存储介质
下一篇：一种材料管理的系统和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种微博突发事件检测方法有效

专利文献下载