[发明专利]一种微博用户行为分析预测的方法在审

专利信息
申请号: 201711078084.0 申请日: 2017-11-06
公开(公告)号: CN107908700A 公开(公告)日: 2018-04-13
发明(设计)人: 余帝乾 申请(专利权)人: 余帝乾
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 深圳市精英专利事务所44242 代理人: 冯筠
地址: 528100 广东省佛山市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用户 行为 分析 预测 方法
【说明书】:

技术领域

发明涉及网络数据技术领域,特别是涉及一种微博用户行为分 析预测的方法。

背景技术

据中国互联网信息中心于2017年1月发布的第39次《中国互 联网络发展状况统计报告》显示,截止2016年12月,中国网民规模 已达7.31亿,新增4299万,普及率53.2%,较2015年底提升了 2.9个百分点。而手机上网用户规模达6.95亿,新增7550万,较 2015年底的90.1%提升到了95.1%。很明显的,移动终端尤其是以手 机为代表的移动终端,已发展成为我国网民上网的主要方式。在我国, 从当初的新浪、网易、搜狐、腾讯四大门户网站,到今天的BAT(百 度,阿里巴巴,腾讯)和TMD(头条,美团,滴滴)移动互联网已经 进入发展的快车道。伴随与此SNS应用(交友网站,微博等)的发 展也进入了新的阶段,借助兴趣、关注、LBS(Location Based Service)、联系人等模块,以解决用户交流沟通,互动娱乐,分享 等为出发点,满足不同场景下的用户需求。

互联网时代造就了“指尖上的信息”。以在线论坛,社交网站,社交媒体 等为代表的社交网络服务吸引了越来越多的用户,诸如国外的Facebook, Twitter,YouTube等,据社交网络Facebook2016年第一季度财报显示,它现 在的月活跃用户数量为16.5亿(同比上涨了15%),其中移动用户数量为15.1 亿(同比上涨了21%),它的日活跃用户数量为10.9亿(同比上涨了16%), 移动日活跃用户数量为9.89亿(同比上涨了24%),互联网正在一点一点的 改变着人们的习惯。

微博作为一种新型的在线社交媒体平台,以其使用门槛低、获取 信息方便、涵盖内容全面等特点迅速吸引了大量的用户,对信息的泛 洪式传播起到了推手的作用,形成了一种特有的信息传播网络。因此, 微博成了许多个人和企业获取信息主要平台,研究人们在微博中的行 为特征、预测人们对信息的处理情况,对于微博营销甚至网络营销、 热点话提提取、舆情控制等方面具有重要的意义。

发明内容

本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。

一种微博用户行为分析预测的方法,所述方法包括:

步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;

步骤S102:预处理数据,对实验数据按照一定的规则进行处理;

步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;

步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。

步骤S105:得到表征用户兴趣的空间特征。

具体地,步骤S101:获取微博数据,并分析微博网页结构,选 取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉 丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的 数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得微 博平台的授权。

具体地,步骤S102:预处理数据,对实验数据按照一定的规则 进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处理, 降低特征维度。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取统计特征采用平均频率法。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取组合特征包括利用用户微博中 的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜在 的兴趣。

具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于余帝乾,未经余帝乾许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711078084.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top