[发明专利]一种基于监测子网的微博热点事件实时检测方法及系统有效
申请号: | 201310017814.1 | 申请日: | 2013-01-17 |
公开(公告)号: | CN103116605A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 陈凯;周异 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/26 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监测 子网 热点 事件 实时 检测 方法 系统 | ||
1.一种基于监测子网的微博热点事件实时检测方法,其特征在于包括以下步骤:
步骤1:微博监测子网构建,根据用户影响力、用户参与事件的活跃度、用户参与事件的时间三个参数构建包含有限用户数量的微博监测子网;
步骤2:基于微博监测子网用户的微博数据实时采集,每隔一定时间收集微博监测子网中所有用户在该时间段内产生的新微博;
步骤3:微博内容分词与话题合并,对收集到的新微博进行分词,为每条微博基于分词词汇构建特征向量,构建微博然后进行话题合并;
步骤4:话题列表的构建、更新与查询,对话题列表进行构建、更新与查询;
步骤5:热点事件判决,基于时间窗口对话题列表内的话题,统计参与话题的用户数量变化进行热点事件判决;
步骤6:输出热点事件列表。
2.根据权利要求1所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤1的微博监测子网构建,包括:
a.建立微博热点事件样本库;
b.基于样本微博分别计算用户活跃度、用户影响力和用户响应时间;
c.根据用户活跃度、用户影响力和用户响应时间获取有限用户数量的微博监测子网。
3.根据权利要求2所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤a中,样本事件获取是人工或机器选取,热点事件根据事件类型分类或者不分类。
4.根据权利要求2所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤b中,用户参与事件的活跃度是指用户参与总样本热点事件的参与概率,如果样本事件分成多种事件类型,则是指用户参与每种事件类型的参与概率;用户的影响力由用户的粉丝数量和用户微博的平均转发数量二个因素构成的归一化因子;用户参与事件的响应时间是指用户多次参与热点事件所发的微博距离热点事件的源微博的平均时间差。
5.根据权利要求2所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤c中,有限用户数量的微博监测子网是指最终监测子网用户数量是由系统能实时监测处理多少个微博用户来确定的。
6.根据权利要求2所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤c的具体实现如下:
首先选取在样本热点事件中,节点平均响应时间在小于7天的节点构建初选集合S1;优先获取用户活跃度大的节点,假设节点i,j的活跃度分别为Ai,Aj,节点i,j的影响力分别为Fi,Fj,如果此时Ai>Aj,Fi>Fj,则优先选取节点i;但当Ai>Aj,Fi<Fj时,如果满足如下情况时:(Fj-Fi)/(Ai–Aj)>τ,则优先选取节点j,直到选取的节点数达到预定数目为止。
7.根据权利要求1所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤3中,具体实现包括如下步骤:
a.对每条新微博内容分词时采用去停用词、去虚词,去形容词、去单字;
b.丢弃分词后词汇个数小于阈值t1的微博;阈值t1取值为[10,15]中的一个;
c.为满足步骤b的每条微博基于分词词汇构建基于Tf/Idf加权的特征向量;Tf、Idf分别是指词频Tf,逆向文档频率Idf;
d.采用基于向量间距离的相似性判断方法进行话题合并。
8.根据权利要求7所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤d中,是指将微博对应的向量之间的距离小于阈值t2的所有微博合并成一个话题,一条微博只能合并到一个话题;阈值t2通过对话题微博样本进行学习,使话题合并准确率最高的距离阈值设为t2。
9.根据权利要求1-7任一项所述的基于监测子网的微博热点事件实时检测方法,其特征在于步骤4中,话题列表构建是指,当话题列表不存在时创建话题列表,其中表结构包括话题发起时间,监测子网中参与话题的用户,整个网络中参与话题传播的用户数量;话题描述,是否热点;话题列表更新是指将所述的步骤3中产生的话题数据对话题列表进行新话题创建,已有话题数据修改,已有话题删除;话题列表查询是指将所述的步骤3中产生的话题和话题列表中话题进行距离相似性比较,距离小于阈值t2且距离最近的为相同话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310017814.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抗菌乳胶漆
- 下一篇:一种斗提式搅拌站断绳保护装置