[发明专利]一种基于分布式的舆情数据实时采集方法和系统有效

专利信息
申请号: 201610502047.7 申请日: 2016-06-30
公开(公告)号: CN106096056B 公开(公告)日: 2019-11-26
发明(设计)人: 李平;陈雁;胡栋;代臻;刘婷;许斌;孙先;林辉;赵玲 申请(专利权)人: 西南石油大学
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 51218 成都金英专利代理事务所(普通合伙) 代理人: 袁英<国际申请>=<国际公布>=<进入国
地址: 610500 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于分布式的舆情数据实时采集方法及系统,方法包括以下步骤:S1:建立舆情数据网站类库,分类并定义爬取数据项;S2:将数据采集网站列表传输给数据采集服务器,服务器分配相应的爬虫以休眠的模式循环地爬取数据;S3:对爬取到的源网页数据进行标签解析,定位目标数据项位置获取目标数据项;S4:将获取到的结果数据项封装成对应类的统一格式;S5:将封装后的数据存入对应的数据库;S6:生成监测日志文件。本发明架构先进,通过使用工厂模式作为系统的主要设计模式,能够快速生成新实例,将浏览器访问、日志生成、数据封装、代理设置以及队列设置等系统核心功能封装起来,增强系统的可扩展性和可移植性,提高代码的可重用性和系统的可维护性。
搜索关键词: 一种 基于 分布式 舆情 数据 实时 采集 方法 系统
【主权项】:
1.一种基于分布式的舆情数据实时采集方法,其特征在于:它包括以下步骤:/nS1:建立舆情数据网站类库,分类舆情数据源站,并定义每类网站的爬取数据项;/nS2:将数据采集网站列表传输给数据采集服务器,数据采集服务器分配相应的爬虫以休眠的模式循环地爬取目标网站数据,采集过程中使用生产者消费者模式并发执行采集任务;/n在数据爬取过程中,系统首先采用工厂设计模式将模拟访问不同的浏览器方法封装起来,并提供统一的实例化接口;在具体实例化的过程中,指定浏览器类型名称即可生产出对应的浏览器访问类;爬虫将根据数据源站的类型与复杂度生成对应的浏览器访问实例;/n其中浏览器访问类包括PhantomJS和Urllib2两种,针对新闻,论坛,博客限制要求较低的网站,为了提高数据采集效率,系统使用Urllib2方式获取页面数据;而像微博这类反扒机制高,用户访问限制较强的网站系统则采用PhantomJS完美的模拟浏览器访问页面,获取数据;针对某些反扒机制较好的网页,系统还需要模拟浏览器登录网站获取到页面cookie文件才可进一步访问页面数据;同时,代理设置模块在浏览器访问过程中自动为程序分配IP地址;/n将URL地址存储队列方法封装起来,并提供统一的实例化接口;采用多级生产者消费者模式并发的爬取数据:一级生产者根据分配的数据源网站地址访问页面获取数据的一级URL地址,并将地址存储到数据队列当中;若当前地址页面不是正文地址,而是正文列表地址,系统将分配二级生成者从当前地址队列中获取URL地址进行数据爬取,直到获取到正文URL地址;消费者负责从正文地址队列中取出URL数据,访问页面获取正文页面内容;/n在此过程中,生产者和消费者彼此之间通过阻塞队列来进行通讯;/n采用队列设置模块提供队列的存取操作,并初始化队列数据库并建立连接;/nS3:对爬取到的源网页数据进行标签解析,定位目标数据项位置获取目标数据项;/nS4:将获取到的结果数据项封装成对应类的统一格式;/nS5:将封装后的数据存入对应的数据库;/nS6:生成监测日志文件。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610502047.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top