[发明专利]一种基于话题影响力的微博话题溯源方法有效
申请号: | 201410374437.1 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104133897B | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 杨静;董圆;张健沛;王勇;初妍;张乐君;杨悦;张泽宝;国林 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 话题 影响力 溯源 方法 | ||
1.一种基于话题影响力的微博话题溯源方法,其特征在于:
(1)根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组tp进行语义扩展,得到与给定话题相关的前k个话题:
(1.1)对数据集中的所有微博进行去停用词、词干化预处理,构建基于向量空间模型的文本数据库;
(1.2)对用户提交的查询话题进行去停用词、词干化预处理,形成查询的向量形式TP;
(1.3)根据隐形语义索引LSI方法获得与给定话题语义相关的前k个话题;
(2)确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN:
(2.1)在微博中搜索话题tpk包含的所有微博wbj,j=1……n;
(2.2)计算每条微博wbj的影响力wbinj;
wbinj=log fwj×log cmj×cpj,
其中,fwj代表微博的被转发数,cmj代表微博的回复数,cpj代表微博的有效回复率即回复的微博中有效回复数占回复数之比;
(2.3)通过标签字段判断话题tpk所属的类别,确定话题类别在话题影响力计算公式中的权重tc;
tc0代表话题类别的初始权重,wb代表某一时间段内要溯源的话题tpk的微博数量,wba表示这一时间段内网络中的所有微博数;
(2.4)计算话题tpk的内容影响力CIN;
(2.5)计算话题的意见领袖的影响力LIN,其中影响因素包括用户对话题的敏感度贡献度UC和权威度UA,用户的影响力排名中前5位用户为话题的意见领袖,他们的影响力之和为话题的意见领袖影响力;
t表示实验持续时间,Butp(i)表示距实验起始时间第i个时间步用户u所发布的与话题词组tp有关的微博数,包括转发、回复、原创微博,代表Butp(i)的均值;Bitp表示距实验起始时间第i个时间步与话题词组tp有关的微博数,代表Bitp的均值,以1h为一个时间步,
u1代表该用户之前他的关注者中参与话题的人数,u2代表该用户之后他的粉丝中参与话题的人数,b1代表用户参与话题前他的关注者发表的与话题相关的微博数,b2代表用户参与话题后他的粉丝发表的与话题相关的微博数,在影响力计算中的权重分配为:机构和媒体,UA=1.0;明星达人,UA=0.8;草根用户,UA=0.4;
(2.6)计算话题的影响力强度TIN;
TIN=CIN+LIN;
(2.7)重复上述(2.1)到(2.6)步,计算出与话题词组tp相关的k个话题的影响力;
(3)根据影响力计算公式,以1h为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;
(4)推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头wbp:
(4.1)根据话题的影响力变化趋势逆向推导,得到溯源递推公式:
TIN(tp)=min TIN(tpk);
(4.2)对话题的溯源模型进行动力学分析,仿真话题传播的演化过程,当演化曲线趋于平稳时即停止话题的溯源递推,
话题溯源模型包括三个状态,以N表示未接触话题状态即未激活状态,A表示接触话题并传播状态即激活状态,R表示接触话题而不愿传播状态即免疫状态;未激活态到激活态的概率为λ,激活态到免疫态的概率为μ,未激活态到免疫态的概率为θ;a(t),n(t),r(t)分别为A,N,R状态的密度;
(4.3)输出曲线中处于话题从出现到发展成为热门话题的临界区间的微博wbp,p=1……n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410374437.1/1.html,转载请声明来源钻瓜专利网。