[发明专利]一种自动获取xpath生成爬虫脚本的方法及系统有效
申请号: | 201711034452.1 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107943838B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 姬永杰;陈国强;任建新 | 申请(专利权)人: | 北京大数元科技发展有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F8/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 获取 xpath 生成 爬虫 脚本 方法 系统 | ||
本发明公开了一种自动获取xpath生成爬虫脚本的方法及系统,所述方法包括以下步骤:(1)通过url地址打开网页,遍历网页中所有的a标签;(2)取出每个a标签对应的xpath路径;(3)按xpath路径相同划分为一组;然后,统计分组后a标签个数;(4)取出每组中的一个a标签,打开该链接网页;(5)对于步骤4中每个被打开的网页,统计网页中的a标签个数以及文字个数;(6)取出文字个数最多且a标签个数最少的一组,记录其对应的xpath路径;(7)基于Scrapy框架,根据对应的xpath路径生成爬虫脚本。该方法能够基于Scrapy框架对政府网站公开信息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫管理的自动化水平。
技术领域
本发明涉及网络爬虫技术领域,具体涉及一种自动获取xpath生成爬虫 脚本的方法及系统。所述xpath指xpath路径。
背景技术
随着进一步加大政府信息公开和数据开放力度,越来越多的政府信息被 公开在政府网站上形成海量的政府网站公开信息。现有的政府网站由各级政 府的各类部门建立和维护、管理,从政府网站上方便快速的获得政府网站公 开信息,必将给用户带来巨大的价值。
但是,这些政府网站的内容不同,网页的结构各异,现在的互联网爬虫 (亦称为网络爬虫,简称即爬虫),对政府网站进行爬取时,都需要专业技术 人员分析网页的结构,从而定位所需内容并对其进行爬取,这是因为:
网页中所需内容的xpath路径各不相同,进行爬取时需要人工解析所需 内容的xpath路径,这显然将会花费大量的时间和人力,工作量大,劳动繁 琐。面对成千上万的政府网站,这种模式显然效率较低。
本发明涉及以下技术术语:
1、爬取,是指访问网站,并从网页获取信息,实现网页数据采集。
2、xpath,是在网页(尤其XML文档)中查找信息的语言(爬虫),用 来对网页(尤其XML文档)中的元素和属性进行遍历。xpath属于Html路 径语言,它是可以用来确定Html文档中某部分位置的语言。
3、Scrapy,是Python开发的一个快速、高层次的屏幕抓取和web抓取 框架(爬虫框架),用于抓取web站点并从网页中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。在基于Scrapy框架的爬 虫脚本中,最关键的步骤是识别网页中所需内容的xpath路径,以便爬取指 定网页内容。
4、互联网爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序 或者脚本,其主要为两种方式:
第一种是类似百度等搜索引擎的全网爬取;
第二种是面向某种类别的定向爬取,定向爬取是指爬取指定网页内容(指 定网页的定向内容)。
但是,对于定向爬取的方式,如前所述,由于政府网站的网页布局比较 杂乱,获取指定网页内容(网页中所需内容)的xpath路径,需要专业技术 人员在已有网页的url地址前提下,查看网页源代码,经过分析后,获得正 确xpath路径。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种自动获取xpath 生成爬虫脚本的方法及系统,通过该方法能够基于Scrapy框架对政府网站公 开信息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫 管理的自动化水平。
为实现上述目的,本发明采用的技术方案如下:
一种自动获取xpath生成爬虫脚本的方法,包括以下步骤:
步骤1,获取网页的url地址,并通过url地址打开网页,遍历网页中所 有的a标签;
所述a标签用于定义超链接;
步骤2,取出每个a标签对应的xpath路径;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数元科技发展有限公司,未经北京大数元科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711034452.1/2.html,转载请声明来源钻瓜专利网。