[发明专利]一种自动获取xpath生成爬虫脚本的方法及系统有效

专利信息
申请号: 201711034452.1 申请日: 2017-10-30
公开(公告)号: CN107943838B 公开(公告)日: 2021-09-07
发明(设计)人: 姬永杰;陈国强;任建新 申请(专利权)人: 北京大数元科技发展有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F8/30
代理公司: 北京天悦专利代理事务所(普通合伙) 11311 代理人: 田明;任晓航
地址: 100094 北京市海淀区西北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 获取 xpath 生成 爬虫 脚本 方法 系统
【说明书】:

发明公开了一种自动获取xpath生成爬虫脚本的方法及系统,所述方法包括以下步骤:(1)通过url地址打开网页,遍历网页中所有的a标签;(2)取出每个a标签对应的xpath路径;(3)按xpath路径相同划分为一组;然后,统计分组后a标签个数;(4)取出每组中的一个a标签,打开该链接网页;(5)对于步骤4中每个被打开的网页,统计网页中的a标签个数以及文字个数;(6)取出文字个数最多且a标签个数最少的一组,记录其对应的xpath路径;(7)基于Scrapy框架,根据对应的xpath路径生成爬虫脚本。该方法能够基于Scrapy框架对政府网站公开信息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫管理的自动化水平。

技术领域

本发明涉及网络爬虫技术领域,具体涉及一种自动获取xpath生成爬虫 脚本的方法及系统。所述xpath指xpath路径。

背景技术

随着进一步加大政府信息公开和数据开放力度,越来越多的政府信息被 公开在政府网站上形成海量的政府网站公开信息。现有的政府网站由各级政 府的各类部门建立和维护、管理,从政府网站上方便快速的获得政府网站公 开信息,必将给用户带来巨大的价值。

但是,这些政府网站的内容不同,网页的结构各异,现在的互联网爬虫 (亦称为网络爬虫,简称即爬虫),对政府网站进行爬取时,都需要专业技术 人员分析网页的结构,从而定位所需内容并对其进行爬取,这是因为:

网页中所需内容的xpath路径各不相同,进行爬取时需要人工解析所需 内容的xpath路径,这显然将会花费大量的时间和人力,工作量大,劳动繁 琐。面对成千上万的政府网站,这种模式显然效率较低。

本发明涉及以下技术术语:

1、爬取,是指访问网站,并从网页获取信息,实现网页数据采集。

2、xpath,是在网页(尤其XML文档)中查找信息的语言(爬虫),用 来对网页(尤其XML文档)中的元素和属性进行遍历。xpath属于Html路 径语言,它是可以用来确定Html文档中某部分位置的语言。

3、Scrapy,是Python开发的一个快速、高层次的屏幕抓取和web抓取 框架(爬虫框架),用于抓取web站点并从网页中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。在基于Scrapy框架的爬 虫脚本中,最关键的步骤是识别网页中所需内容的xpath路径,以便爬取指 定网页内容。

4、互联网爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序 或者脚本,其主要为两种方式:

第一种是类似百度等搜索引擎的全网爬取;

第二种是面向某种类别的定向爬取,定向爬取是指爬取指定网页内容(指 定网页的定向内容)。

但是,对于定向爬取的方式,如前所述,由于政府网站的网页布局比较 杂乱,获取指定网页内容(网页中所需内容)的xpath路径,需要专业技术 人员在已有网页的url地址前提下,查看网页源代码,经过分析后,获得正 确xpath路径。

发明内容

针对现有技术中存在的缺陷,本发明的目的在于提供一种自动获取xpath 生成爬虫脚本的方法及系统,通过该方法能够基于Scrapy框架对政府网站公 开信息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫 管理的自动化水平。

为实现上述目的,本发明采用的技术方案如下:

一种自动获取xpath生成爬虫脚本的方法,包括以下步骤:

步骤1,获取网页的url地址,并通过url地址打开网页,遍历网页中所 有的a标签;

所述a标签用于定义超链接;

步骤2,取出每个a标签对应的xpath路径;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数元科技发展有限公司,未经北京大数元科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711034452.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top