[发明专利]一种用于新闻博客类网站的通用低代码爬虫方法及系统在审
申请号: | 202210001246.5 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114491206A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杨国武;谈振伟;杜佩佩;孙相鹏;董广县 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/954 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 吴姗霖 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 新闻 博客 网站 通用 代码 爬虫 方法 系统 | ||
本发明公开一种用于新闻博客类网站的通用低代码爬虫方法及系统,属于网络爬虫技术领域。方法的核心步骤包括:创建各待爬取网站的配置文件;选择运行方式并加载目标网站的各项配置;提取目标网站导航栏中所有分类导航的链接及类别名;对各分类导航链接,提取文章列表页面的所有文章链接并加入待爬取列表;对待爬取列表中各文章,提取文章页面资源中的各项信息并进行持久化存储;重复执行直至完成所有爬取任务。爬虫系统提供的能力主要包括自定义功能扩展、多任务管理、多种方式持久化存储、兼容不同类型网站、日志及进度管理等方面。本发明只需添加待爬取网站的各项配置,即可完成满足基本需求的文章爬取,大幅度提升爬虫程序开发和维护效率。
技术领域
本发明属于网络爬虫技术领域,具体涉及一种用于新闻博客类网站的通用低代码爬虫方法及系统。
背景技术
在信息爆炸的互联网时代,依靠人工采集数据已不再可行,网络爬虫程序成为了获取各类网络数据资源的一种重要手段。其中从各种新闻博客类网站(特别是新闻类网站)爬取各类新闻/文章数据(注:新闻和文章在本发明专利描述中指代同一个概念)是一大主要数据采集方法,采集后的数据通常可被用于数据库索引构建、新闻资源整合、数据挖掘或者AI模型训练等。
目前,主流的爬取技术方向分以下两种:
第一种是针对不同的网站开发特定的爬虫程序。
不同网站的内容组织方式不同,网页结构各异,因而想要获取需要的数据,需要人为对每个网站进行元素解析,从获取网页链接到数据清洗都需要编写特定的代码进行处理。
当开发多数据源爬虫程序时(多个网站的爬虫),上述方法的缺点很容易就凸显出来。首先,每个网站都需要进行特定的分析,编写特定的代码处理,将带来大量的时间和人力消耗;其次,每个网站编写代码不同,当网页数量较多时难以维护;最后,各个网站的整体架构可能随时会有变动,每个小小的结构变动都可能让这种只适配于某个特定结构网站的爬虫失效。
第二种是基于主流的爬虫框架。
随着爬虫技术的发展,一些成熟的爬虫框架如Scrapy,将网页采集的通用功能集成到各个模块中,程序员在开发爬虫程序时只需关注自己的爬取需求,按照框架的使用规范直接调用各个模块完成爬虫程序的开发。
但这种方法在实际应用中也并非完美,成熟的框架意味着较高的开发学习成本,由于爬虫框架兼顾各种爬虫需求,但面对特定的领域和需求时很多功能依然需要自己编写,开发多个网站的爬虫程序时开发成本依然较高。除此之外,基于框架的编写也可能带来较多的内存消耗和较高的调试难度。
由于绝大多数新闻博客类网站在网页布局结构上具有一定的通用性,通常依照“分类导航”——“各分类下文章列表”——“文章具体内容”的结构进行布局,因此设计一种针对这类网站的爬虫开发框架可以高效地实现爬虫程序的开发和维护,也可以同时解决以上两种主流技术路线的不足之处。
发明内容
本发明针对上述现有技术中存在的问题,提出了一种用于新闻博客类网站的通用低代码爬虫方法及系统,只需人工添加待爬取网站的各项配置,即可完成一个满足基本需求的新闻爬取,大幅度提升新闻博客类网站的爬虫程序开发和维护效率。
本发明所采用的技术方案如下:
一种用于新闻博客类网站的通用低代码爬虫方法,其特征在于,包括以下步骤:
步骤1:对所有待爬取网站,手动创建各待爬取网站的配置文件并填入各配置项;
步骤2:开始运行,选择运行方式并确定待爬取网站中的目标网站,加载目标网站的各配置项并进行配置校验;
步骤3:请求并获取目标网站首页,提取导航栏的所有分类导航链接及对应类别名;
步骤4:对各分类导航链接,请求并获取对应分类导航链接的文章列表页面,提取所有文章链接,并加入待爬取列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210001246.5/2.html,转载请声明来源钻瓜专利网。