[发明专利]一种网页爬取方法及系统有效

申请号：	201310198598.5	申请日：	2013-05-24
公开（公告）号：	CN104182412B	公开（公告）日：	2017-08-04
发明（设计）人：	赵黎;万鹏;周崎;王韬;何晓军;于光杰	申请（专利权）人：	中国移动通信集团安徽有限公司;南京中兴软创科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中誉威圣知识产权代理有限公司11279	代理人：	郭振兴,丛芳
地址：	230061 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络搜索技术领域，尤其涉及一种网页爬取方法及系统。

背景技术

现有网络爬虫主要代表有通用网络爬虫和聚焦网络爬虫。

通用网络爬虫又称全网爬虫，其结构大致分为页面爬行模块、页面分析模块、链接过来模块、页面数据库、URL队列、初始URL集合几个部分，其常用的爬行策略有两种：

1、深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进行搜索其他链接，当所有链接遍历完后，爬行任务结束。

2、广度优先策略：其按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。

聚焦网络爬虫又称主题网络爬虫，是指选择性地搜索出预先定义好的与主题相关页面的爬虫。

现有聚焦网络爬虫主要是通过一定算法来计算页面内容的和连接的重要性，据此调整链接的访问顺序。相应的算法策略主要有以下几种：

1、基于内容评价的爬行策略：以用户输入的查询词作为主题，包含查询词的页面被视为主题相关，其改进算法有利用空间向量模型计算页面与主题的相关度大小。

2、基于连接结构评价的爬行策略：其思想是利于web页面的结构信息来评价连接重要性。其代表有HITS方法，通过技术每个已访问页面的Authority权重和Hub权重，来决定链接的访问顺序。

3、基于增强学习的爬行策略：利用贝叶斯分类器，根据整个网页文本和连接文本对超链接进行分类，为每个链接计算出重要性，从而决定链接的访问顺序。

4、基于语境图的爬行策略：通过建立语境图学习网页之间的相关度，训练一个机器学习系统，通过该系统可计算当前页面到相关web页面的距离，距离越近的页面中的链接优先访问。

现有网络爬虫技术存在如下缺陷：

1、搜索范围广，搜索到的数据准确率低。

2、大量的无关数据会造成网络资源的极大消耗。

3、搜索到有效数据的时效性大大降低。

4、无效数据会占用大量的存储空间。

发明内容

为了解决现有技术中网页爬取数据准确率较低的技术问题，本发明提出一种网页爬取方法及系统。

本发明的一个方面，提供一种网页爬取方法，包括：对样本网页进行训练得到数据提取条件；爬取web网页；将爬取到的web网页解析成dom树结构，得到web网页dom树，根据所述数据提取条件对所述web网页dom树进行分析，提取所需数据。

本发明的另一个方面，提供一种网页爬取系统，包括：网页训练装置，用于对样本网页进行训练得到数据提取条件；网页爬取装置，用于从互联网上爬取web网页；网页分析装置，用于将爬取到的web网页解析成dom树结构，得到web网页dom树，根据所述数据提取条件对所述web网页dom树进行分析，提取所需数据。

本发明的网页爬取方法及系统，基于网页分析训练方法生成数据提取条件，在将web页面解析后生成dom树结构，根据数据提取条件来对web页面进行分析，当条件完全匹配成功后，精确提取所需的网页链接和数据内容，从而保证了数据的准确性，而且因为不需要分析整个网页所以匹配效率高，另外只提取所需网页链接进行网页爬取，可以保证数据的时效性，节省网络资源，并减少存储空间。

附图说明

图1是本发明网页爬取系统实施例的结构图；

图2是本发明网页训练装置实施例的结构图；

图3是本发明网页爬取系统的工作流程示意图；

图4是本发明本发明网页爬取方法实施例的流程图；

图5是本发明网页爬取方法另一实施例的流程图。

具体实施方式

以下结合附图对本发明进行详细说明。

如图1所示，本发明网页爬取系统实施例包括：网页训练装置11、网页爬取装置12、网页分析装置13、URL队列管理装置14及数据存储装置15。

其中，网页训练装置对样本网页进行训练得到数据提取条件。

网页爬取装置根据URL地址通过http协议从互联网上爬取web网页。其中URL地址从URL队列管理装置中获取，爬取的网页数据交给网页分析装置进行数据分析。

URL队列管理装置遍历URL队列，从URL队列中提取待爬取的URL。网页爬取装置根据所述待爬取的URL从互联网上爬取web网页。