[发明专利]一种基于话题影响力的微博话题溯源方法有效
申请号: | 201410374437.1 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104133897B | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 杨静;董圆;张健沛;王勇;初妍;张乐君;杨悦;张泽宝;国林 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 话题 影响力 溯源 方法 | ||
技术领域
本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。
背景技术
本文所提出的话题溯源方法主要依据话题影响力的变化趋势,故量化话题的影响力成为关键。目前,在线社会网络的影响力研究主要分为两大类:一是从结点的属性特征分析影响力;二是基于社会网络的拓扑结构计算影响力。较早的研究常采用用户的粉丝数作为度量影响力的指标,这种方法过于直接简单缺乏理论分析,在多数情况下并不准确。另外,也有其他研究者借鉴WEB数据挖掘中链接分析的方法,如LeaderRank方法,在网络中增加一个与所有节点双向联通的节点来改进PageRank方法在非连通图下排序不唯一的缺点;还有一种类PageRank方法称为TwitterRank。该方法对主题内容敏感,并且认为用户的影响力是其所有粉丝影响力的总和;由于上述方法仅依靠网络结构,使得某些节点能够采用增加虚假粉丝的手段提高影响力。针对以上方法存在的缺陷,本文通过话题的内容与话题中意见领袖的影响力确定话题在网络中的全局影响力,使得话题的影响力度量更为全面准确,并适合于话题溯源研究。
目前在话题研究方面,有学者提出一种K树模型,根据事件发生的时间戳,推测信息传播的路径以此达到溯源的目的;另有学者将互联网上的话题溯源抽象为一个排序问题,并提出基于文档时间、话题相关性和文档之间关系三者结合的TCL话题溯源模型;还有人通过分析博客空间的转发网络,根据时间和链接关系进行回溯抽取出信息传播的骨干关系。当前的话题溯源方法大多基于内容相似度、时间顺序以及链接关系,而如今的微博不同于以往的信息载体,其文本短小且用户经常采用转发机制来推动信息传播,并不适合进行页面相似度分析。由于话题在传播扩散过程中影响力不断变化,因此可以通过分析语义相似的话题间影响力的变化情况,根据传播理论中的动力学分析逐层缩小话题溯源的范围,最终达到溯源的目的。基于以上分析,本发明提出了一种基于话题影响力的微博话题溯源方法。
发明内容
本发明的目的在于提出一种溯源准确度更高的基于话题影响力的微博话题溯源方法。
本发明的目的是这样实现的:
(1)根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组tp进行语义扩展,得到与给定话题相关的前k个话题:
(1.1)对数据集中的所有微博进行去停用词、词干化预处理,构建基于向量空间模型的文本数据库;
(1.2)对用户提交的查询话题进行去停用词、词干化预处理,形成查询的向量形式TP;
(1.3)根据隐形语义索引LSI方法获得与给定话题语义相关的前k个话题;
(2)确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN:
(2.1)在微博中搜索话题tpk包含的所有微博wbj,j=1……n;
(2.2)计算每条微博wbj的影响力wbinj;
wbinj=log fwj×log cmj×cpj,
其中,fwj代表微博的被转发数,cmj代表微博的回复数,cpj代表微博的有效回复率即回复的微博中有效回复数占回复数之比;
(2.3)通过标签字段判断话题tpk所属的类别,确定话题类别在话题影响力计算公式中的权重tc;
tc0代表话题类别的初始权重,wb代表某一时间段内要溯源的话题tpk的微博数量,wba表示这一时间段内网络中的所有微博数;
(2.4)计算话题tpk的内容影响力CIN;
(2.5)计算话题的意见领袖的影响力LIN,其中影响因素包括用户对话题的敏感度贡献度UC和权威度UA,用户的影响力排名中前5位用户为话题的意见领袖,他们的影响力之和为话题的意见领袖影响力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410374437.1/2.html,转载请声明来源钻瓜专利网。