[发明专利]一种基于微博平台的用户数据采集存储系统及方法在审
申请号: | 201911371328.3 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111131268A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 叶宁;凌鑫元;徐康;王娟;黄海平;程晶晶;王汝传;马铭辰;贾成栋;陈龙鹏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06F16/35;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 张玉红 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平台 用户 数据 采集 存储系统 方法 | ||
本发明提供一种基于微博平台的用户数据采集存储系统及方法,包括登录模块、数据采集模块、数据存储模块和API检测模块,登录模块与数据采集模块连接,数据采集模块和数据存储模块连接,登录模块负责记录使用者登录账号以及所需要采集对象的相关信息,数据采集模块主要负责对采集对象微博进行下载操作,API检测模块负责检测API调用次数是否超过限制,数据存储模块主要负责数据存储功能。利用新浪微博API作为平台,旨在高效的实现微博用户数据的采集和存储的功能,并对搜集数据进行归类,采用了多账户并发操作的方式,解决了单个账户在同一时间只能进行单次下载的问题,提高了数据采集的效率,系统结构层次清晰,功能全面,易于实现。
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于微博平台的用户数据采集存储系统及方法。
背景技术
随着互联网的高速发展,在线社会网络在全球范围内持续升温。在线社会网络是一种基于网络的沟通交流方式,有了网络作为载体,人与人之间的交流不再受到距离的限制,联系的对象可能身边的亲人朋友,也有可能是世界上的任何一个人。同时借由在线社会网络,人们可以随时表达自己的观点分享自己的所见所得。因此,在线社会网络吸引着越来越多的人参与进来。
在我国比较有代表性的在线社会网络有新浪微博,人人网,虎扑和天涯论坛等,其中以用户基数最大的新浪微博为最。据统计2018年,新浪微博注册人数已达4亿人,超过Twitter成为全球用户规模最大的在线社会网络。其中的明星用户吸引了大量的用户关注,往往他们的每条博文都会引起大量的阅读和评论,其商业价值不可估量。较之明星用户,普通用户使用新浪微博更具个人情感倾向。此类用户发表的博文更多的代表了他们的兴趣和爱好。对于这些用户发表的博文数据进行采集和调查,便于开发人员找出用户的关注点所在,更准确的推广商品,同时政府可以从中了解到民生问题,及时将谣言扼杀于萌芽状态。警方也可以通过对数据分析找到潜在的犯罪信息,保障社会治安的稳定。因此对于在线社会网络中数据的调查分析是很有意义的。
对于在线社会网络中用户数据分析的前提是数据的收集。据统计目前新浪微博的月活跃用户达3.4亿,峰值每秒发送的微博数达32312条,每天产生将近8000万条的消息,庞大的用户基数带来了更为庞大的数据量。目前比较常用的下载方式是网络爬虫,使用此方式可以在一定程度上满足数据的采集需求,但是因为无法筛选必要的下载内容以及使用开销大的原因,此方式并不适合下载大量的用户数据。因此,有必要设计一种能够快速定位关键数据并适用于大规模数据的采集存储系统。
而影响数据分析的另一个重要因素就是数据的存储。庞大的数据量导致了我们需要海量的空间进行数据存储。这就使得进行数据分析需要从海量的空间中定位关键信息。传统的遍历方式会从数据库中一条条的匹配数据,当数据量过大时,效率极低,造成系统性能降低,为此我们需要设计一种方法使得用户在进行数据分析的时候可以快速定位到关键信息。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于微博平台的用户数据采集存储系统及方法,能够快速定位用户关键数据,并能够对数据进行下载及存储,解决了单个账户在同一时间只能进行单次下载的问题,提高了数据采集的效率。
本发明提供一种基于微博平台的用户数据采集存储系统,包括登录模块、数据采集模块、数据存储模块和API检测模块,所述登录模块与数据采集模块连接,数据采集模块和数据存储模块连接,登录模块负责记录使用者的登录账号以及所需要采集的对象的相关信息,数据采集模块主要负责对采集对象的微博进行下载操作,API检测模块负责检测API的调用次数是否超过限制,数据存储模块主要负责数据的存储功能。
进一步改进在于:所述对象的相关信息为调查者的用户名称,账号以及手机号或邮箱,所述系统根据输入的信息通过调用API获取出采集对象的ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911371328.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置