[发明专利]数据采集方法、装置、存储介质及电子设备在审

专利信息
申请号: 201811141123.1 申请日: 2018-09-28
公开(公告)号: CN110968752A 公开(公告)日: 2020-04-07
发明(设计)人: 李春光;张诗茹;仲丽君;孙秀丹;何珊 申请(专利权)人: 珠海格力电器股份有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535
代理公司: 北京细软智谷知识产权代理有限责任公司 11471 代理人: 郭亚芳
地址: 519000*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 采集 方法 装置 存储 介质 电子设备
【说明书】:

本申请涉及数据采集方法、装置、存储介质及电子设备,属于网页数据采集技术领域。本申请通过获取目标网页的网页结构,根据网页结构对目标网页的页面内容进行选择采集,能够准确地采集用户需要的数据,使得采集到的数据在准确性和可靠性方面能够满足用户的需求。

技术领域

本申请属于网页数据采集技术领域,具体涉及数据采集方法、装置、存储介质及电子设备。

背景技术

互联网作为人类历史最大的知识仓库,随着开放API(Application ProgrammingInterface缩写,应用程序编程接口)、SOA(Service Oriented Architecture缩写,面向服务的架构)越来越普及,越来越多的信息向我们开放,以供人们根据需求进行采集。比如,在相关技术中,可通过网络爬虫实现网页数据的自动化收集,收集时,网络爬虫一端不断解析网页,以聚合互联网上的数据,另一端则向各种各样的应用输送数据。虽然网络爬虫可以爬取大量的网页数据,但是却存在着如下问题,爬虫爬取的数据中携带有大量用户不需要的数据,导致数据的准确度和可靠性难以满足用户要求。

发明内容

为至少在一定程度上克服相关技术中存在的问题,本申请提供数据采集方法、装置、存储介质及电子设备,以能够准确地采集用户需要的数据。

为实现以上目的,本申请采用如下技术方案:

第一方面,

本申请提供了一种数据采集方法,包括:

获取目标网页的网页结构;

根据所述网页结构,对所述目标网页的页面内容进行选择采集。

进一步地,

所述获取目标网页的网页结构,包括:

获取所述目标网页的网页源码;

对所述网页源码进行处理并得到所述网页结构。

进一步地,

所述对所述网页源码进行处理并得到所述网页结构,具体包括:

通过基于视觉的网页分割算法,将所述网页源码分割成多个视觉块;

将所述多个视觉块输入至预先训练好的机器学习模型,以使所述机器学习模型对所述多个视觉块的类型进行判断,并根据判断出的所述多个视觉块的类型输出所述网页结构。

进一步地,

所述对所述网页源码进行处理并得到所述网页结构,具体包括:

根据所述网页源码,建立所述目标网页的Dom树结构;

根据所述Dom树结构生成所述网页结构。

进一步地,

所述根据所述网页结构,对所述目标网页的页面内容进行选择采集,包括:

基于指定的标签类别,确定出所述网页结构中属于所述指定的标签类别的标签;

通过网络爬虫采集所述标签对应的页面内容。

进一步地,

所述通过网络爬虫采集所述标签对应的页面内容之前,所述方法还包括:

获取所述网页结构中指定内容的路径,检测所述路径,如果所述路径不为空,则将所述路径发送至所述网络爬虫,以使所述网络爬虫采集所述标签对应的页面内容。

进一步地,

如果所述路径为空,则在间隔指定时间后,重新获取所述路径。

进一步地,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811141123.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top