[发明专利]一种微博话题热度预测系统及方法有效

专利信息
申请号: 201410368076.X 申请日: 2014-07-30
公开(公告)号: CN104123377B 公开(公告)日: 2017-06-06
发明(设计)人: 陈羽中;郭文忠;陈国龙;方明月 申请(专利权)人: 福州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 福州元创专利商标代理有限公司35100 代理人: 蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 话题 热度 预测 系统 方法
【权利要求书】:

1.一种微博话题热度预测方法,其特征在于,所述方法包括如下步骤:

步骤A:计算话题相关的用户影响力;

步骤B:根据话题相关的微博和用户影响力,计算话题能量值,量化话题热度;

步骤C:根据计算得到的话题能量值,利用小波变换和ARIMA回归模型,预测话题热度:对能量曲线进行小波分解,然后分别对得到的逼近信号与各层的细节信号进行ARIMA回归预测,再对预测的分量进行重构,得到预测的话题热度;

所述步骤A中,计算话题相关的用户影响力,包括以下步骤:

步骤A1:定义话题依存度,表示两个用户在话题tp下的相关程度,计算公式为:

<mrow><msub><mi>TDR</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>=</mo><mfrac><mrow><mrow><mo>|</mo><mrow><msub><mi>VC</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>&cap;</mo><msubsup><mi>V</mi><mi>t</mi><mrow><mi>t</mi><mi>p</mi></mrow></msubsup></mrow><mo>|</mo></mrow><mo>+</mo><mi>&xi;</mi><mo>&CenterDot;</mo><mrow><mo>|</mo><mrow><msub><mi>VC</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>&cap;</mo><mover><msubsup><mi>V</mi><mi>t</mi><mrow><mi>t</mi><mi>p</mi></mrow></msubsup><mo>&OverBar;</mo></mover></mrow><mo>|</mo></mrow><mo>+</mo><mn>1</mn></mrow><mrow><mo>|</mo><mrow><msub><mi>VC</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow><mo>|</mo></mrow></mfrac></mrow>

其中,TDRj,i表示用户vi和vj的话题依存度;VCj,i表示用户vi和vj共同关注用户集合,VCj,i=FOL(vj)∩FOL(vi),FOL(vi)表示用户vi关注的用户集合,FOL(vj)表示用户vj关注的用户集合,表示第t个时间片内发布与话题tp相关的微博的用户集合,定义为话题内用户;表示第t个时间片内没有发布与话题tp相关微博的用户集合,定义为话题外用户;ξ为一系数,用于削弱话题外用户对用户vi和vj之间相关程度的贡献,0≤ξ≤1;

步骤A2:根据话题依存度,模拟随机游走过程,迭代更新用户影响力,为使得影响力从一个用户以更大的概率转移到与之依存度更高的关注用户,定义用户影响力计算的迭代过程中的概率转移公式为:

<mrow><msub><mi>&Psi;</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>TDR</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mi>q</mi><mo>&Element;</mo><mi>F</mi><mi>O</mi><mi>L</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></munder><msub><mi>TDR</mi><mrow><mi>j</mi><mo>,</mo><mi>q</mi></mrow></msub></mrow></mfrac></mrow>

步骤A3:引入系数ξ削弱话题外的粉丝的影响力贡献,则相应的用户影响力更新公式为:

其中,FAN(vi)表示用户vi的粉丝集合,d∈[0,1]为阻尼因子,用于修正用户影响力的计算;

迭代过程中的初始影响力Inf(0)(vi)定义为用户与其所有粉丝的依存度总和,即:

<mrow><msup><mi>Inf</mi><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msup><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>v</mi><mi>j</mi></msub><mo>&Element;</mo><mi>F</mi><mi>A</mi><mi>N</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></munder><msub><mi>TDR</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub></mrow>

每一步迭代计算用户影响力为:

步骤A4:设定阈值ε,当前后两次迭代得到的用户影响力值相差小于阈值ε,满足迭代终止条件,话题相关的用户影响力计算结束;

所述步骤B中,计算话题能量值,量化话题热度,包括以下步骤:

步骤B1:定义话题能量值是由话题在当前时刻的营养的累积,即累计支持度转换而来,而当前时刻的累积支持度是话题的历史累积支持度经衰减之后同当前摄入的营养值之和;首先计算在第t个时间片,话题tp所获取的营养值,其取决于当前时间片与该话题相关的微博数及话题的影响力,计算公式为:

Nutrttp=|TWttp|·TPInfttp

其中,Nutrttp表示第t个时间片话题tp的营养值,TWttp表示第t个时间片与话题tp相关的微博集合,|TWttp|表示微博集合大小;TPInfttp表示第t个时间片的话题tp的影响力,其为当前时间片内发布了与话题相关微博的用户对话题tp的影响力的总和,计算公式如下:

<mrow><msubsup><mi>TPInf</mi><mi>t</mi><mrow><mi>t</mi><mi>p</mi></mrow></msubsup><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>tw</mi><mi>i</mi></msub><mo>&Element;</mo><msubsup><mi>TW</mi><mi>t</mi><mrow><mi>t</mi><mi>p</mi></mrow></msubsup></mrow></munder><mi>I</mi><mi>n</mi><mi>f</mi><mrow><mo>(</mo><mi>u</mi><mi>s</mi><mi>e</mi><mi>r</mi><mo>(</mo><mrow><msub><mi>tw</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow>

其中,Inf(user(twi))表示发布与话题tp相关的第i条微博twi的用户在这个话题上的影响力;

步骤B2:采用指数衰减方案,计算话题在第t个时间片的累积支持度St

<mrow><msub><mi>S</mi><mi>t</mi></msub><mo>=</mo><mi>&alpha;</mi><mo>&CenterDot;</mo><mo>&lsqb;</mo><msub><mi>&beta;S</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&beta;</mi><mo>)</mo></mrow><msubsup><mi>Nutr</mi><mi>t</mi><mrow><mi>t</mi><mi>p</mi></mrow></msubsup><mo>&rsqb;</mo></mrow>

其中S0=0,参数α∈[0,1]为支持度转移因子,决定着营养值对话题生命的贡献;参数β∈[0,1]为支持度衰减因子,用于控制话题的衰减速度;

步骤B3:采用sigmoid函数定义能量函数将St从无限的范围[0,∞)转化到[0,1)之间的能量值:

<mrow><mi>E</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mfrac><msub><mi>S</mi><mi>t</mi></msub><mrow><mn>1</mn><mo>+</mo><mn>10</mn><mo>&CenterDot;</mo><msub><mi>S</mi><mi>t</mi></msub></mrow></mfrac><mo>,</mo><msub><mi>S</mi><mi>t</mi></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>

能量函数还要满足以下两个条件:

E(min{S1,S2,...,ST})≥e1

E(max{S1,S2,...,ST})≥e2

其中,St表示累积支持度,E(St)表示能量函数,1≥e2≥e1≥0;e1表示话题能量值的最低阈值,e2表示话题能量峰值的最小阈值;通过以上两个限制条件,保证得到的能量计算公式能够使得话题在其稳定期有足够大的能量值表示话题高度活跃,同时话题在其生命周期内的能量值总和要远大于生命周期外的能量值总和。

2.根据权利要求1所述的一种微博话题热度预测方法,其特征在于,所述步骤C中,结合小波变换和ARIMA回归模型,预测话题热度,包括以下步骤:

步骤C1:将从第1~t个时间片的能量序列X(t)=(E1,E2,...,Et)看做能量信号;对能量信号X(t)进行J尺度小波分解后得到一个小波逼近信号AJ及各层的细节信号Dj,j∈[1,J];再通过小波重构即可得到无损的原始信号:

<mrow><mi>X</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>A</mi><mi>J</mi></msub><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msub><mi>D</mi><mi>j</mi></msub></mrow>

步骤C2:通过以上的小波分解得到各个分量AJ与Dj;利用ARIMA回归方法分别预测第t+1个时间片的分量预测值与再根据步骤C1得到对第t+1个时间片的话题能量值的预测值:

<mrow><msup><mi>E</mi><mrow><mi>p</mi><mi>r</mi><mi>e</mi></mrow></msup><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msubsup><mi>A</mi><mi>J</mi><mrow><mi>p</mi><mi>r</mi><mi>e</mi></mrow></msubsup><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msubsup><mi>D</mi><mi>j</mi><mrow><mi>p</mi><mi>r</mi><mi>e</mi></mrow></msubsup><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>.</mo></mrow>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410368076.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top