[发明专利]一种微博突发事件检测方法有效
申请号: | 201810490699.2 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108733816B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈红阳 | 申请(专利权)人: | 重庆人文科技学院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 黄河 |
地址: | 401572 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 突发事件 检测 方法 | ||
1.一种微博突发事件检测方法,其特征在于,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;该步骤包括:
提取微博文本数据集D中微博文本的类别信息;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext;
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤;
文本影响力评分
代表微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数,表示微博文本的关注度,即微博文本的评论数Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,……n1,n1为微博文本数据集D中的微博文本的数量;
步骤3:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时间窗中;
步骤4:对每个时间窗内的微博文本进行预处理;该步骤包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语;
步骤5:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词集包括多个突发特征词;该步骤包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为候选突发特征词,并形成每个时间窗的候选突发特征词集BWset;
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量,其中,Wi2表示时间窗内任意候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签,则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2,其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2,其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2j6,Forwardi2j6,Collecti2j6,Prizei2j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中DD为当前计算的时间窗口中微博文本总数,ej6i2为含有候选突发特征词wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,mm为第j6条微博文本中词的总个数;
计算候选突发特征词的突发权重Burstyi2=γ1×Wi2+γ2×Zi2+γ3×Gi2+γ4×Ei2,其中,γ1+γ2+γ3+γ4=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发特征词集BTi3;
步骤6:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;该步骤包括:
基于公式计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数;
步骤7:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类,生成目标时间窗的突发事件。
2.如权利要求1所述的微博突发事件检测方法,其特征在于,步骤7包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式计算任意两个簇Ci5及Cj5的相似度Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的突发事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆人文科技学院,未经重庆人文科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810490699.2/1.html,转载请声明来源钻瓜专利网。