[发明专利]一种自动化垂直细分领域的爬虫爬取方法及其管理系统有效

专利信息
申请号: 201710673166.3 申请日: 2017-08-08
公开(公告)号: CN107590188B 公开(公告)日: 2020-02-14
发明(设计)人: 郑小林;张建勇;林炜华 申请(专利权)人: 杭州灵皓科技有限公司
主分类号: G06F16/955 分类号: G06F16/955;G06F16/953;G06F17/18
代理公司: 33212 杭州中成专利事务所有限公司 代理人: 周世骏
地址: 310030 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及爬虫爬取和管理调度技术,旨在提供一种自动化垂直细分领域的爬虫爬取方法及其管理系统。该种自动化垂直细分领域的爬虫爬取方法包括过程:爬虫运行时间预测;根据预测时间、并行数进行批量爬虫调度优化;爬虫爬取。本发明在垂直细分领域爬虫的爬取效率上比现有技术更加高效,结合垂直细分爬虫的特征开创地引入了爬虫的时间预测模型,结合最长处理时间优先算法进行并行爬虫的高效调度,节省爬取时间。
搜索关键词: 一种 自动化 垂直 细分 领域 爬虫 方法 及其 管理 系统
【主权项】:
1.一种自动化垂直细分领域的爬虫爬取方法,其特征在于,包括下述过程:/n一、爬虫运行时间预测;/n在并行通道和爬虫任务确定的情况下,即爬虫的并行数和目标网站确定的情况下,对每个新的爬虫任务,利用线性回归模型预测出爬虫运行时间;/n二、根据预测时间、并行数进行批量爬虫调度优化;/n设爬虫的并行数为m,有n个独立的爬虫任务,爬虫任务i对应的预测运行时间,采用最长处理时间优先算法,使得n个爬虫任务在尽可能短的时间内由m个并行通道完成;/n最长处理时间优先算法是将n个爬虫任务根据预测出爬虫运行时间长短排序,然后将最长时间的爬虫任务依次分配给结束时间最早的并行通道,这样的贪心策略能够得到(4/3-1/(3m))OPT的上界,其中m为爬虫的并行数,OPT为最优时间;/n三、爬虫爬取;/n爬虫爬取包括爬取核心部分和数据处理部分,以实现在自动化垂直细分领域爬虫对目标网站的爬取;/n爬取核心部分用于向目标网站发送请求,并对返回结果进行解析和内容提取,得到结构化的内容;/n数据处理部分用于对爬取核心部分解析后的结构化内容,进行过滤、筛选和数据库持久化。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州灵皓科技有限公司,未经杭州灵皓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710673166.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top