[发明专利]一种基于用户影响力以及内容的微博传播预测方法有效
申请号: | 201710203904.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN106991160B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 郭晓东;刘金硕;王丽娜;章岚昕;杨广益;陈煜森;李扬眉 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 影响力 以及 内容 传播 预测 方法 | ||
1.一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取;抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率;其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子;
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有转发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的粉丝时间段活跃度预测因子;
步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量;微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑jtf(dj);将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子;
步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折;
步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子;进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛;贝叶斯网络基于公式:
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率;在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
2.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,所述步骤5具体包括:先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例;然后再从未被选取的样例中随机选择一些节点,依次类推;因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖;将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
3.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,还包括一个验证贝叶斯模型的步骤,通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型,对于这个模型的,验证贝叶斯模型效果的具体方法是:用8次抽样来训练,用剩下2次抽样来验证分类器效果;反复进行交叉验证,即变换训练样例与验证样例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203904.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:一种自动生成开放式问题答案的方法