[发明专利]一种微博用户行为分析预测的方法在审
申请号: | 201711078084.0 | 申请日: | 2017-11-06 |
公开(公告)号: | CN107908700A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 余帝乾 | 申请(专利权)人: | 余帝乾 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市精英专利事务所44242 | 代理人: | 冯筠 |
地址: | 528100 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 行为 分析 预测 方法 | ||
技术领域
本发明涉及网络数据技术领域,特别是涉及一种微博用户行为分 析预测的方法。
背景技术
据中国互联网信息中心于2017年1月发布的第39次《中国互 联网络发展状况统计报告》显示,截止2016年12月,中国网民规模 已达7.31亿,新增4299万,普及率53.2%,较2015年底提升了 2.9个百分点。而手机上网用户规模达6.95亿,新增7550万,较 2015年底的90.1%提升到了95.1%。很明显的,移动终端尤其是以手 机为代表的移动终端,已发展成为我国网民上网的主要方式。在我国, 从当初的新浪、网易、搜狐、腾讯四大门户网站,到今天的BAT(百 度,阿里巴巴,腾讯)和TMD(头条,美团,滴滴)移动互联网已经 进入发展的快车道。伴随与此SNS应用(交友网站,微博等)的发 展也进入了新的阶段,借助兴趣、关注、LBS(Location Based Service)、联系人等模块,以解决用户交流沟通,互动娱乐,分享 等为出发点,满足不同场景下的用户需求。
互联网时代造就了“指尖上的信息”。以在线论坛,社交网站,社交媒体 等为代表的社交网络服务吸引了越来越多的用户,诸如国外的Facebook, Twitter,YouTube等,据社交网络Facebook2016年第一季度财报显示,它现 在的月活跃用户数量为16.5亿(同比上涨了15%),其中移动用户数量为15.1 亿(同比上涨了21%),它的日活跃用户数量为10.9亿(同比上涨了16%), 移动日活跃用户数量为9.89亿(同比上涨了24%),互联网正在一点一点的 改变着人们的习惯。
微博作为一种新型的在线社交媒体平台,以其使用门槛低、获取 信息方便、涵盖内容全面等特点迅速吸引了大量的用户,对信息的泛 洪式传播起到了推手的作用,形成了一种特有的信息传播网络。因此, 微博成了许多个人和企业获取信息主要平台,研究人们在微博中的行 为特征、预测人们对信息的处理情况,对于微博营销甚至网络营销、 热点话提提取、舆情控制等方面具有重要的意义。
发明内容
本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。
一种微博用户行为分析预测的方法,所述方法包括:
步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;
步骤S102:预处理数据,对实验数据按照一定的规则进行处理;
步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;
步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。
步骤S105:得到表征用户兴趣的空间特征。
具体地,步骤S101:获取微博数据,并分析微博网页结构,选 取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉 丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的 数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得微 博平台的授权。
具体地,步骤S102:预处理数据,对实验数据按照一定的规则 进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处理, 降低特征维度。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取统计特征采用平均频率法。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取组合特征包括利用用户微博中 的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜在 的兴趣。
具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于余帝乾,未经余帝乾许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711078084.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内容显示方法和服务器
- 下一篇:止血组合物及装置