[发明专利]一种基于用户影响力以及内容的微博传播预测方法有效
申请号: | 201710203904.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN106991160B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 郭晓东;刘金硕;王丽娜;章岚昕;杨广益;陈煜森;李扬眉 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 影响力 以及 内容 传播 预测 方法 | ||
本文发明涉及一种基于用户影响力以及内容的微博传播预测方法,流程如下:1.利用scrapy技术对两个用户的个人信息和他们之间的转发关系及转发微博进行爬取。2.利用RankPage影响力分析技术提取用户影响力,形成用户权威预测因子。3.采用单位时间粉丝转发微博在所有发表微博的百分比,提取粉丝转发活跃度预测因子。4.采用TF‑IDF词语权重技术对微博内容进行重要性分析,提取微博重要性预测因子。5.利用滚雪球的抽样方法将提取到的转发关系划分成10折微博转发训练集和微博忽略训练集6.利用有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。利用本发明可以提高针对新浪微博特定粉丝转发微博预测的准确度。
技术领域
本发明涉及计算机学科中的数据挖掘,scrapy框架、HTML数据包分析、机器学习、计算机网络和概率论与数理统计等,尤其是一种基于用户影响力以及内容的微博传播预测方法。
背景技术
Scrapy框架是利用python语言开发的一个成熟、快速、高层次的web抓取框架,提供了多种类型的基类爬虫,用来从网页上提取结构化信息。PageRank网页排名技术是一种根据网络之间相互的超链接来计算网页等级的技术,如今这种技术大都用来计算网络结构中节点的重要性。TF-IDF技术是一种信息检索的统计方法,用来评估数据挖掘领域中一个字词对于一个文本集或者一个语料库的重要程度。
微博网络可以被理解为一个独立的平台,使得每个微博用户可以通过浏览、分享、收集有用或有趣的信息建立联系。在微博网络中,大量的微博用户通过关注的方式建立好友关系。并且通过微博将信息共享出去来不断扩大自己的好友交流圈和粉丝团,最终形成海量的复杂的微博网络关系。
快速发展的新浪微博网络为信息的分享交流提供了快速传播的途径,逐渐成为网络上信息传播的一个重要的平台,甚至产生了社交媒体(Social-media)这一新概念。目前研究现状来看,传统的信息传播模式已经有了比较成熟的传播理论,但对于微博网络中的信息传播预测的研究分析还没有得到足够的重视。
发明内容
本发明主要是解决现有技术所存在的技术问题;提供了一种从基础数据爬取、预测因子提取、训练集划分、机器学习模型训练四个方面来实现粉丝转发微博的预测,较好地提升了预测精确度的一种基于用户影响力以及内容的微博传播预测方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取。抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子。
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的转发活跃度预测因子。经过实验测试,N在取6的时候有最好的实验效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203904.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:一种自动生成开放式问题答案的方法