[发明专利]数据采集方法、装置、存储介质及电子设备在审
申请号: | 201811141123.1 | 申请日: | 2018-09-28 |
公开(公告)号: | CN110968752A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 李春光;张诗茹;仲丽君;孙秀丹;何珊 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 郭亚芳 |
地址: | 519000*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 采集 方法 装置 存储 介质 电子设备 | ||
本申请涉及数据采集方法、装置、存储介质及电子设备,属于网页数据采集技术领域。本申请通过获取目标网页的网页结构,根据网页结构对目标网页的页面内容进行选择采集,能够准确地采集用户需要的数据,使得采集到的数据在准确性和可靠性方面能够满足用户的需求。
技术领域
本申请属于网页数据采集技术领域,具体涉及数据采集方法、装置、存储介质及电子设备。
背景技术
互联网作为人类历史最大的知识仓库,随着开放API(Application ProgrammingInterface缩写,应用程序编程接口)、SOA(Service Oriented Architecture缩写,面向服务的架构)越来越普及,越来越多的信息向我们开放,以供人们根据需求进行采集。比如,在相关技术中,可通过网络爬虫实现网页数据的自动化收集,收集时,网络爬虫一端不断解析网页,以聚合互联网上的数据,另一端则向各种各样的应用输送数据。虽然网络爬虫可以爬取大量的网页数据,但是却存在着如下问题,爬虫爬取的数据中携带有大量用户不需要的数据,导致数据的准确度和可靠性难以满足用户要求。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供数据采集方法、装置、存储介质及电子设备,以能够准确地采集用户需要的数据。
为实现以上目的,本申请采用如下技术方案:
第一方面,
本申请提供了一种数据采集方法,包括:
获取目标网页的网页结构;
根据所述网页结构,对所述目标网页的页面内容进行选择采集。
进一步地,
所述获取目标网页的网页结构,包括:
获取所述目标网页的网页源码;
对所述网页源码进行处理并得到所述网页结构。
进一步地,
所述对所述网页源码进行处理并得到所述网页结构,具体包括:
通过基于视觉的网页分割算法,将所述网页源码分割成多个视觉块;
将所述多个视觉块输入至预先训练好的机器学习模型,以使所述机器学习模型对所述多个视觉块的类型进行判断,并根据判断出的所述多个视觉块的类型输出所述网页结构。
进一步地,
所述对所述网页源码进行处理并得到所述网页结构,具体包括:
根据所述网页源码,建立所述目标网页的Dom树结构;
根据所述Dom树结构生成所述网页结构。
进一步地,
所述根据所述网页结构,对所述目标网页的页面内容进行选择采集,包括:
基于指定的标签类别,确定出所述网页结构中属于所述指定的标签类别的标签;
通过网络爬虫采集所述标签对应的页面内容。
进一步地,
所述通过网络爬虫采集所述标签对应的页面内容之前,所述方法还包括:
获取所述网页结构中指定内容的路径,检测所述路径,如果所述路径不为空,则将所述路径发送至所述网络爬虫,以使所述网络爬虫采集所述标签对应的页面内容。
进一步地,
如果所述路径为空,则在间隔指定时间后,重新获取所述路径。
进一步地,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811141123.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:权限信息的处理方法及装置
- 下一篇:一种柴油机颗粒捕集器故障检测方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置