[发明专利]一种基于用户影响力以及内容的微博传播预测方法有效
申请号: | 201710203904.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN106991160B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 郭晓东;刘金硕;王丽娜;章岚昕;杨广益;陈煜森;李扬眉 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文发明涉及一种基于用户影响力以及内容的微博传播预测方法,流程如下:1.利用scrapy技术对两个用户的个人信息和他们之间的转发关系及转发微博进行爬取。2.利用RankPage影响力分析技术提取用户影响力,形成用户权威预测因子。3.采用单位时间粉丝转发微博在所有发表微博的百分比,提取粉丝转发活跃度预测因子。4.采用TF‑IDF词语权重技术对微博内容进行重要性分析,提取微博重要性预测因子。5.利用滚雪球的抽样方法将提取到的转发关系划分成10折微博转发训练集和微博忽略训练集6.利用有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。利用本发明可以提高针对新浪微博特定粉丝转发微博预测的准确度。 | ||
搜索关键词: | 一种 基于 用户 影响力 以及 内容 传播 预测 方法 | ||
【主权项】:
一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取;抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:PageRank(Vi)=(1-a)+aΣVj∈F(Vi)PageRank(Vj)L(Vj),]]>其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率;其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子;步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的转发活跃度预测因子;步骤4、采用TF‑IDF词语权重技术对微博内容进行重要性分析,计算公式如下:其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量;微博w的TF‑IDF计算值就可以用微博w中出现的所有词语的TF‑IDF值之和来表示:tf(w)=∑jtf(dj);将计算得到的TF‑IDF值进行归一化,即提取到的微博重要性预测因子;步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折;步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子;进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛;贝叶斯网络基于公式:P(A|B)=P(B∩A)P(B)]]>其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率;当一个待预测微博输入时,可能转发记为A,可能不转发记为B;在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710203904.8/,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:一种自动生成开放式问题答案的方法