[发明专利]微博热点追踪系统及追踪方法有效
申请号: | 201310708188.0 | 申请日: | 2013-12-20 |
公开(公告)号: | CN103729420B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 盘承军;韦艳玲;李炜;唐毓朝 | 申请(专利权)人: | 广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中恒高博知识产权代理有限公司11249 | 代理人: | 宋敏 |
地址: | 545000 广西壮族自治*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种微博热点追踪系统及追踪方法,微博热点追踪系统,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追踪模块。针对微博数据进行采集和分析,而且通过分词的提取和入库,只对已经入库的敏感词汇进行追踪,针对性强,且通过对页面的关联性分析,得到热点事件的传播过程和传播范围,能够有效的追踪事件的发展状况。达到全面、准确的对微博中的热点事件进行追踪的目的。 | ||
搜索关键词: | 热点 追踪 系统 方法 | ||
【主权项】:
一种微博热点追踪系统,其特征在于,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追踪模块;所述采集模块,通过部署于网络上的分布式微博数据采集终端,对互联网上的微博页面和数据进行采集;所述数据去重模块,对上述采集模块采集到的微博数据内容和地址进行分析,去重掉重复采集的数据;所述格式转换模块,将上述数据去重模块去重的微博数据转换为统一的数据表示格式;所述分词提取模块,对上述格式转换模块转换后的数据进行分词提取,提取出页面中的关键敏感词汇,并将所提取到的页面关键词汇存储到数据库;所述热点事件敏感度匹配模块,对上述存储到数据库中的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库中;所述关联模型分析模块,对上述保存在临时数据库中的微博页面数据以及采集模块采集到的微博页面数据进行关联性分析,计算得到针对预先设定的热点词汇与当前的热点关联分析结果,如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警;所述热点事件识别及追踪模块,根据上述关联模型分析模块分析得到的页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪;上述关联模型分析模块中的关联性分析模型如下:对于关键词K1,K2,......,Kn,对应的权重分别为p1,p2,......,pn,对于单个站点中页面价值:页面价值也即页面权重,通过如下公式计算得到,pi指的是当前选定的关键词权重;两个页面之间的关联关系为:Ci表示热点词汇集,C为常数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院,未经广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310708188.0/,转载请声明来源钻瓜专利网。
- 上一篇:操作响应方法、客户端、浏览器及系统
- 下一篇:弹性杆式西瓜成熟判断装置