[发明专利]一种用于新闻博客类网站的通用低代码爬虫方法及系统在审
申请号: | 202210001246.5 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114491206A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杨国武;谈振伟;杜佩佩;孙相鹏;董广县 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/954 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 吴姗霖 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 新闻 博客 网站 通用 代码 爬虫 方法 系统 | ||
1.一种用于新闻博客类网站的通用低代码爬虫方法,其特征在于,包括以下步骤:
步骤1:对所有待爬取网站,创建各待爬取网站的配置文件并填入各配置项;
步骤2:开始运行,选择运行方式并确定待爬取网站中的目标网站,加载目标网站的各配置项并进行配置校验;
步骤3:请求并获取目标网站首页,提取导航栏的所有分类导航链接及对应类别名;
步骤4:对各分类导航链接,请求并获取对应分类导航链接的文章列表页面,提取所有文章链接,并加入待爬取列表;
步骤5:请求并获取待爬取列表中文章链接对应的网页资源,根据配置文件提取网页资源中的各项信息,作为爬取数据;
步骤6:对爬取数据进行智能校验,过滤异常数据后存入数据库或本地文件;
步骤7:重复步骤5和步骤6,直至完成待爬取列表中所有文章链接的爬取,至此完成所述目标网站的爬取。
2.根据权利要求1所述用于新闻博客类网站的通用低代码爬虫方法,其特征在于,步骤1创建的配置文件中包括基础配置、存储配置、各数据项选择器配置和其他配置;其中,基础配置包括网站的名称、类型、编码格式和首页地址,所述网站的类型包括动态网站和静态网站;存储配置包括数据存储方式,本地存储路径,数据库各项信息配置,和日志及进度的存储目录配置;各数据项选择器配置包括分类导航链接、文章链接、文章内容、文章摘要、文章标题、文章日期和文章作者的数据提取表达式类型,有css数据提取功能和xpath数据提取功能两种;其他配置包括网络请求频率,单次运行最大数据爬取量,多分类导航并发爬取配置项,和文章列表页面的分页参数配置、翻页操作配置及起始页码。
3.根据权利要求1所述用于新闻博客类网站的通用低代码爬虫方法,其特征在于,步骤2中的运行方式包括单网站爬取、多网站串行爬取和多网站并发爬取;当所选运行方式为单网站爬取时,步骤2通过命令行交互确定目标网站;当所选运行方式为多网站串行爬取时,步骤2将所有待爬取网站依次作为目标网站;当所选运行方式为多网站并发爬取时,步骤2根据系统资源负载情况自动确定同时进行的任务分支数量,各任务分支的上一个目标网站爬取完成后进行下一个目标网站爬取,直至所有待爬取网站均作为目标网站。
4.根据权利要求2所述用于新闻博客类网站的通用低代码爬虫方法,其特征在于,步骤3的具体过程为:
步骤3.1:根据目标网站首页地址和网站类型,向目标网站发送请求,验证请求反馈的状态码和网页文本,若状态码为200,则成功获取目标网站首页;若请求发送失败或状态码为非200,则重复发送请求最多3次,若仍请求失败则终止目标网站的爬取,同时输出相应的错误提示信息并记录到日志中;
步骤3.2:将目标网站首页转换为包含目标网站首页各项元素节点的目标网站结构化对象;
步骤3.3:基于分类导航链接的数据提取表达式类型,在目标网站结构化对象中提取导航栏的所有分类导航链接及对应类别名。
5.根据权利要求2所述用于新闻博客类网站的通用低代码爬虫方法,其特征在于,步骤4的具体过程为:
步骤4.1:对各分类导航链接,根据分类导航链接和网站类型,向分类导航链接指向的文章列表页面发送请求,验证请求反馈的状态码和网页文本,若状态码为200,则成功获取文章列表页面;若请求发送失败或状态码为非200,则重复发送请求最多3次,若仍请求失败则结束分类导航链接指向的文章列表页面的爬取,同时输出相应的错误提示信息并记录到日志中;
步骤4.2:将文章列表页面转换为包含文章列表页面各项元素节点的文章列表页面结构化对象;
步骤4.3:基于文章链接的数据提取表达式类型,在文章列表页面结构化对象中提取所有文章链接,判断所提取的文章链接是否完整,若不完整,则进行智能拼接补全处理,将补全后的文章链接加入待爬取列表。
6.根据权利要求1所述用于新闻博客类网站的通用低代码爬虫方法,其特征在于,步骤1创建的配置文件中还包括多分类导航并发爬取配置项,若目标网站启用多分类导航并发爬取配置项,则步骤4同时进行多个分类导航链接的爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210001246.5/1.html,转载请声明来源钻瓜专利网。