[发明专利]多信息融合的微博热点话题检测方法有效

专利信息
申请号: 201310231487.X 申请日: 2013-06-12
公开(公告)号: CN103294818A 公开(公告)日: 2013-09-11
发明(设计)人: 张小明;李舟军 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 成金玉;贾玉忠
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 融合 热点话题 检测 方法
【说明书】:

技术领域

发明涉及一种多信息融合的微博热点话题检测方法,可以自动检测微博中新出现的热点话题。可应用于多种类型的社会媒体数据,适用于社交网络中的数据挖掘、社会网络舆情监控等。

背景技术

随着Web2.0技术的发展,基于Web的社交网络变得越来越普及,特别是近年来,在线社会网络吸引了越来越多的网络用户,已经成为当前最热的网络平台,社会网络用户生成的信息已经成为目前互联网内容的主要来源。例如,新浪微博在短短的一年多时间里已有注册用户近2亿,每天产生的微博超过8000万,而搜狐微博亦有用户约2000万以上。随着用户规模的增加,微博逐渐成为反映社会热点事件以及群体或个体思想动态的主要场所,面对如此巨大的、动态变化的、参差不齐的微博数据,仅依靠人工的方法很难从中获得感兴趣的信息,因此必须充分利用有效的话题检测等信息处理技术,从海量的社交网络数据中发现热点话题以帮助用户、企业、政府部门等了解社会网络舆论的发展状态。

传统的话题检测方法研究主要针对互联网信息本身,其方法和技术主要面向传统的新闻文档数据,数据被分别看作孤立的信息进行研究,没有深入挖掘与分析在线社会网络所蕴含的社会关系,无法利用社会网络的特点,因此不能有效的检测微博中的热点话题。另外,当前面向微博的热点话题检测方法面临着数据稀疏性问题,这些方法没有利用其它类型的Web资源。

发明内容

本发明要解决的技术问题:克服现有话题检测技术的不足,提供一种融合多信息的微博热点话题检测方法,综合利用了微博特征词信息、博主社会关系信息、相关Web新闻文档信息来检测微博热点话题,提高了微博热点话题检测的效率。

本发明的技术解决方案:多信息融合的微博热点话题检测方法,包括结合博主影响力的特征词权值计算、突发特征词检测、话题检测几个步骤。结合博主影响力的特征词权值计算负责完成数据的预处理,数据桶的划分,博主影响力值的计算,结合博主的影响力和特征词频率计算特征词在每个微博中的权值以及每个桶中的权值之和。突发特征词检测负责根据特征词在不同桶中权值之和的变化情况检测出具有突发性质的特证词,即这些特征词在当前桶中其权值之和增长速度非常快。话题检测步骤负责根据特征词之间的关联关系构建每个桶中的突发特征词关联图,然后把特征词关联图划分为全联通的子图,每个子图代表一个热点话题。话题检测过程中融合了各种信息,包括微博数据本身的信息、博主之间的社交关系、相关的Web文档资源包含的信息等。

本发明具体实现步骤如下:

A.结合博主影响力的特征词权值计算:对收集到的数据进行预处理操作,根据博主之间的社交关系计算博主的影响力,结合博主的影响力及特征词的频率计算特征词在微博中的权值以及给定时间段内的权值之和;

B.突发特征词检测:针对步骤A的特征词,基于状态图模型构建数据桶序列的状态序列,根据不同数据桶内权值之和的变化情况检测出当前数据桶内的处于突发状态的特征词;

C.话题的检测:利用Web新闻文档数据扩充微博数据包含的特征词关联关系信息,根据步骤B检测出的突发特征词之间的关联关系构建特征词关联图,然后对特征词关联图进行划分,每个子图表示一个话题,图划分后得到热点话题列表。

上述步骤A中所描述的数据包括从新闻网站爬取的Web网页数据、微博上爬取的微博数据,预处理操作是指解析HTML页面以获取正文信息和社交信息。对正文分词,去掉停用词和常用词得到特征词,利用博主的社交信息计算博主的影响力值。然后结合博主的影响力和特征词在微博中的频率计算特征词在本篇微博中的权值。把微博数据流划分为连续的桶,对特征词在数据桶内所有微博中的权值进行求和以得到特征词在数据桶内的权值之和。

上述步骤B中所描述的基于状态图模型的突发特征词检测过程是:根据划分的数据桶,为每个特征词建立一个状态序列,每个桶对应一个状态,如果特征词在某个桶中其权值之和增长速度超过一定值,则该桶对应的状态为突发状态,否则为普通状态,通过求取使得状态序列达到最大条件概率值的状态值来获得特征词所在的不同桶对应的状态,进而检测出当前桶中的突发特征词。

上述步骤C中所描述的话题检测是一个特征词关联图划分的过程,图的节点表示特征词,节点之间的边表示特征词之间的关联关系,边的权重表示特征词间关联关系值的大小,特征词间的关联关系综合利用了特征词在微博和Web新闻文档中的共现关系,克服了微博中的数据稀疏性问题。然后把特征词关联图划分为强连通子图,子图中任意两个节点都可以互相到达,每个联通子图表示一个话题,包含联通子图中突发特征词的微博即为描述该子图所对应的话题的微博。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310231487.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top