[发明专利]一种网络信息采集方法及装置在审

申请号：	201711308223.4	申请日：	2017-12-11
公开（公告）号：	CN110020081A	公开（公告）日：	2019-07-16
发明（设计）人：	王雅文	申请（专利权）人：	镇江共远软件开发有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/955
代理公司：	暂无信息	代理人：	暂无信息
地址：	212000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络信息抓取属性关系采集网络信息采集目标网站子URL 统一资源定位符
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种网络信息采集方法及装置，方法包括：确定待采集网络信息的目标网站；获取对应所述目标网站的统一资源定位符URL；针对每一个URL，抓取对应的网络信息，并获取每一个URL与其子URL的属性关系；根据抓取到的网络信息和获取的所述属性关系，确定是否存在漏采信息；在确定存在漏采信息时，对漏采信息进行重新采集。根据本方案，通过在抓取网络信息的过程中，获取每一个URL与其子URL的属性关系，可以根据抓取到的网络信息和属性关系来确定是否存在漏采信息，如果存在，可以对漏采信息进行重新采集，从而可以采集到完整的网络信息。

技术领域

本发明涉及数据处理技术领域，特别涉及一种网络信息采集方法及装置。

背景技术

随着互联网技术的迅速发展，互联网在社会和生活中的地位越来越显著。尤其是互联网作为大量信息的载体，如何有效地采集这些信息成为一个巨大的挑战。

目前，可以通过网络爬虫的方式来实现网页信息的采集，通过抓取既定目标，有选择的访问互联网上的网页和相关链接，抓取需要的网页信息。

然而，网络爬虫方式在抓取网页信息的过程中，经常存在信息漏采的问题，而信息漏采可能会对信息使用造成较大影响，因此，如何采集完整的网络信息，，成为急需解决的问题。

发明内容

本发明实施例提供了一种网络信息采集方法及装置，以采集完成的网络信息。

第一方面，本发明实施例提供了一种网络信息采集方法，包括：

确定待采集网络信息的目标网站；

获取对应所述目标网站的统一资源定位符URL；

针对每一个URL，抓取对应的网络信息，并获取每一个URL与其子URL的属性关系；

根据抓取到的网络信息和获取的所述属性关系，确定是否存在漏采信息；

在确定存在漏采信息时，对漏采信息进行重新采集。

优选地，所述获取对应所述目标网站的统一资源定位符URL，包括：

确定所述目标网站的入口URL；

根据所述入口URL，确定对应所述目标网站的URL抽取规则；

利用所述URL抽取规则，执行如下步骤：

S0：将所述入口URL作为第一URL，执行S1；

S1：抽取与第一URL相关的URL，将抽取到的URL作为第一URL，并执行S1，直到未抽取到与第一URL相关的URL。

优选地，

每一个目标URL与其子URL的属性关系包括：目标URL、目标URL对应的各个子URL、以及每一个子URL对应的深度、目标URL的类型和该目标URL对应的每一个子URL的类型；

所述类型至少包括：导航页、列表页和详情页中的至少一种。

优选地，所述根据抓取到的网络信息和获取的所述属性关系，确定是否存在漏采信息，包括：

根据所述属性关系，确定每一个当前URL对应的子URL的数量；

并根据抓取到的网络信息，确定每一个当前URL对应的抓取数量；

针对每一个第二URL，在确定该第二URL对应的子URL的数量和抓取数量之间的差值大于0时，则确定对该第二URL进行网络信息的抓取时，存在漏采信息。

优选地，在确定针对第二URL存在漏采信息时，所述对漏采信息进行重新采集，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于镇江共远软件开发有限公司，未经镇江共远软件开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711308223.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络信息采集方法及装置在审

专利文献下载