[发明专利]数据采集方法、装置、存储介质及电子设备在审

申请号：	201811141123.1	申请日：	2018-09-28
公开（公告）号：	CN110968752A	公开（公告）日：	2020-04-07
发明（设计）人：	李春光;张诗茹;仲丽君;孙秀丹;何珊	申请（专利权）人：	珠海格力电器股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/9535
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	郭亚芳
地址：	519000***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据采集方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及数据采集方法、装置、存储介质及电子设备，属于网页数据采集技术领域。本申请通过获取目标网页的网页结构，根据网页结构对目标网页的页面内容进行选择采集，能够准确地采集用户需要的数据，使得采集到的数据在准确性和可靠性方面能够满足用户的需求。

技术领域

本申请属于网页数据采集技术领域，具体涉及数据采集方法、装置、存储介质及电子设备。

背景技术

互联网作为人类历史最大的知识仓库，随着开放API(Application ProgrammingInterface缩写，应用程序编程接口)、SOA(Service Oriented Architecture缩写，面向服务的架构)越来越普及，越来越多的信息向我们开放，以供人们根据需求进行采集。比如，在相关技术中，可通过网络爬虫实现网页数据的自动化收集，收集时，网络爬虫一端不断解析网页，以聚合互联网上的数据，另一端则向各种各样的应用输送数据。虽然网络爬虫可以爬取大量的网页数据，但是却存在着如下问题，爬虫爬取的数据中携带有大量用户不需要的数据，导致数据的准确度和可靠性难以满足用户要求。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供数据采集方法、装置、存储介质及电子设备，以能够准确地采集用户需要的数据。

为实现以上目的，本申请采用如下技术方案：

第一方面，

本申请提供了一种数据采集方法，包括：

获取目标网页的网页结构；

根据所述网页结构，对所述目标网页的页面内容进行选择采集。

进一步地，

所述获取目标网页的网页结构，包括：

获取所述目标网页的网页源码；

对所述网页源码进行处理并得到所述网页结构。

进一步地，