[发明专利]一种自动化垂直细分领域的爬虫爬取方法及其管理系统有效
申请号: | 201710673166.3 | 申请日: | 2017-08-08 |
公开(公告)号: | CN107590188B | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 郑小林;张建勇;林炜华 | 申请(专利权)人: | 杭州灵皓科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/953;G06F17/18 |
代理公司: | 33212 杭州中成专利事务所有限公司 | 代理人: | 周世骏 |
地址: | 310030 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及爬虫爬取和管理调度技术,旨在提供一种自动化垂直细分领域的爬虫爬取方法及其管理系统。该种自动化垂直细分领域的爬虫爬取方法包括过程:爬虫运行时间预测;根据预测时间、并行数进行批量爬虫调度优化;爬虫爬取。本发明在垂直细分领域爬虫的爬取效率上比现有技术更加高效,结合垂直细分爬虫的特征开创地引入了爬虫的时间预测模型,结合最长处理时间优先算法进行并行爬虫的高效调度,节省爬取时间。 | ||
搜索关键词: | 一种 自动化 垂直 细分 领域 爬虫 方法 及其 管理 系统 | ||
【主权项】:
1.一种自动化垂直细分领域的爬虫爬取方法,其特征在于,包括下述过程:/n一、爬虫运行时间预测;/n在并行通道和爬虫任务确定的情况下,即爬虫的并行数和目标网站确定的情况下,对每个新的爬虫任务,利用线性回归模型预测出爬虫运行时间;/n二、根据预测时间、并行数进行批量爬虫调度优化;/n设爬虫的并行数为m,有n个独立的爬虫任务,爬虫任务i对应的预测运行时间,采用最长处理时间优先算法,使得n个爬虫任务在尽可能短的时间内由m个并行通道完成;/n最长处理时间优先算法是将n个爬虫任务根据预测出爬虫运行时间长短排序,然后将最长时间的爬虫任务依次分配给结束时间最早的并行通道,这样的贪心策略能够得到(4/3-1/(3m))OPT的上界,其中m为爬虫的并行数,OPT为最优时间;/n三、爬虫爬取;/n爬虫爬取包括爬取核心部分和数据处理部分,以实现在自动化垂直细分领域爬虫对目标网站的爬取;/n爬取核心部分用于向目标网站发送请求,并对返回结果进行解析和内容提取,得到结构化的内容;/n数据处理部分用于对爬取核心部分解析后的结构化内容,进行过滤、筛选和数据库持久化。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州灵皓科技有限公司,未经杭州灵皓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710673166.3/,转载请声明来源钻瓜专利网。
- 上一篇:易酸洗焊丝钢高速线材的生产方法
- 下一篇:一种铜材自动进料装置