[发明专利]一种自动获取xpath生成爬虫脚本的方法及系统有效

申请号：	201711034452.1	申请日：	2017-10-30
公开（公告）号：	CN107943838B	公开（公告）日：	2021-09-07
发明（设计）人：	姬永杰;陈国强;任建新	申请（专利权）人：	北京大数元科技发展有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F8/30
代理公司：	北京天悦专利代理事务所(普通合伙) 11311	代理人：	田明;任晓航
地址：	100094 北京市海淀区西北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自动获取 xpath 生成爬虫脚本方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自动获取xpath生成爬虫脚本的方法及系统，所述方法包括以下步骤：(1)通过url地址打开网页，遍历网页中所有的a标签；(2)取出每个a标签对应的xpath路径；(3)按xpath路径相同划分为一组；然后，统计分组后a标签个数；(4)取出每组中的一个a标签，打开该链接网页；(5)对于步骤4中每个被打开的网页，统计网页中的a标签个数以及文字个数；(6)取出文字个数最多且a标签个数最少的一组，记录其对应的xpath路径；(7)基于Scrapy框架，根据对应的xpath路径生成爬虫脚本。该方法能够基于Scrapy框架对政府网站公开信息进行爬取，可以自动解析出网页中所需内容的xpath路径，提升爬虫管理的自动化水平。

技术领域

本发明涉及网络爬虫技术领域，具体涉及一种自动获取xpath生成爬虫脚本的方法及系统。所述xpath指xpath路径。

背景技术

随着进一步加大政府信息公开和数据开放力度，越来越多的政府信息被公开在政府网站上形成海量的政府网站公开信息。现有的政府网站由各级政府的各类部门建立和维护、管理，从政府网站上方便快速的获得政府网站公开信息，必将给用户带来巨大的价值。

但是，这些政府网站的内容不同，网页的结构各异，现在的互联网爬虫 (亦称为网络爬虫，简称即爬虫)，对政府网站进行爬取时，都需要专业技术人员分析网页的结构，从而定位所需内容并对其进行爬取，这是因为：

网页中所需内容的xpath路径各不相同，进行爬取时需要人工解析所需内容的xpath路径，这显然将会花费大量的时间和人力，工作量大，劳动繁琐。面对成千上万的政府网站，这种模式显然效率较低。

本发明涉及以下技术术语：

1、爬取，是指访问网站，并从网页获取信息，实现网页数据采集。

2、xpath，是在网页(尤其XML文档)中查找信息的语言(爬虫)，用来对网页(尤其XML文档)中的元素和属性进行遍历。xpath属于Html路径语言，它是可以用来确定Html文档中某部分位置的语言。

3、Scrapy，是Python开发的一个快速、高层次的屏幕抓取和web抓取框架(爬虫框架)，用于抓取web站点并从网页中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。在基于Scrapy框架的爬虫脚本中，最关键的步骤是识别网页中所需内容的xpath路径，以便爬取指定网页内容。

4、互联网爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，其主要为两种方式：

第一种是类似百度等搜索引擎的全网爬取；

第二种是面向某种类别的定向爬取，定向爬取是指爬取指定网页内容(指定网页的定向内容)。

但是，对于定向爬取的方式，如前所述，由于政府网站的网页布局比较杂乱，获取指定网页内容(网页中所需内容)的xpath路径，需要专业技术人员在已有网页的url地址前提下，查看网页源代码，经过分析后，获得正确xpath路径。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种自动获取xpath 生成爬虫脚本的方法及系统，通过该方法能够基于Scrapy框架对政府网站公开信息进行爬取，可以自动解析出网页中所需内容的xpath路径，提升爬虫管理的自动化水平。

为实现上述目的，本发明采用的技术方案如下：

一种自动获取xpath生成爬虫脚本的方法，包括以下步骤：

步骤1，获取网页的url地址，并通过url地址打开网页，遍历网页中所有的a标签；

所述a标签用于定义超链接；

步骤2，取出每个a标签对应的xpath路径；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。