[发明专利]一种用于带验证分布式智能爬取网络信息的方法有效

申请号：	201710005162.8	申请日：	2017-01-04
公开（公告）号：	CN106897357B	公开（公告）日：	2023-07-18
发明（设计）人：	王文峰;杨振;许千帆	申请（专利权）人：	北京京拍档科技股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06F9/50
代理公司：	北京中企鸿阳知识产权代理事务所(普通合伙) 11487	代理人：	郭鸿雁
地址：	100085 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种用于带验证分布式智能爬取网络信息的方法，包括：当判断网站的目标页面数据需要登录验证后才能获取时，从数据库获取相应的登录信息，通过浏览器自动登录并提交验证信息；启动定时任务使用cookie访问其网页并留活处理；启动网络抓包检测器，根据数据业务需求访问相应目标页面，进行HTTP报文分析，定制爬虫脚本，确定任务爬取数据量；由主节点发出广播，通知相应的任务节点，分发爬虫脚本，任务节点启动并向主节点任务队列申请任务，根据申请到的任务进行数据爬取，将爬取的目标数据存入队列，进而批量存入数据库。本发明实现可自动登录访问受保护页面，自动生成挖掘脚本的，快速的可扩展的分布式网页爬虫综合框架。
搜索关键词：	一种用于验证分布式智能网络信息方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种用于带验证分布式智能爬取网络信息的方法，其特征在于，包括如下步骤：步骤S1，当判断网站的目标页面数据需要登录验证后才能获取时，从数据库获取相应的登录信息，通过浏览器自动登录并提交验证信息；步骤S2，校验登录成后，将从服务器获取的cookie进行序列化，将序列化后的cookie、登录信息和网站域名存入数据库，启动定时任务使用cookie访问其网页，并对cookie做留活处理；步骤S3，启动网络抓包检测器，根据数据业务需求访问相应目标页面，由所述网络抓包检测器抓取HTTP数据请求和响应的HTTP报文，进行HTTP报文分析，定制爬虫脚本，确定任务爬取数据量；步骤S4，在生成爬虫脚本并确定爬取任务后，当判断有新任务后，由主节点发出广播，通知相应的任务节点，分发爬虫脚本，所述任务节点在接收到通知后，启动并向主节点任务队列申请任务，根据申请到的任务进行数据爬取，将爬取的目标数据存入队列，进而批量存入数据库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京京拍档科技股份有限公司，未经北京京拍档科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710005162.8/，转载请声明来源钻瓜专利网。

上一篇：改进的模糊C‑均值算法实现搜索引擎关键词优化
下一篇：基于约束条件的聚类算法实现搜索引擎关键词优化

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于带验证分布式智能爬取网络信息的方法有效

专利文献下载