[发明专利]一种页面数据的获取方法、装置和设备在审
申请号: | 201810442578.0 | 申请日: | 2018-05-10 |
公开(公告)号: | CN110472126A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 齐希;朱骏 | 申请(专利权)人: | 中国移动通信集团浙江有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 11002 北京路浩知识产权代理有限公司 | 代理人: | 王莹;李相雨<国际申请>=<国际公布>= |
地址: | 310016 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面数据 网页 页面元素 统一资源定位符 爬虫 引擎 采集 返回 可扩展标记语言路径 网页结构分析 技术门槛 接收用户 脚本 网站 发送 语言 | ||
本发明实施例提供一种页面数据的获取方法、装置和设备,通过接收用户对页面元素的选取,提取所选取的页面元素的可扩展标记语言路径语言,以获取网页的域名;根据域名对网页进行网页结构分析,获取网页中的统一资源定位符;将网页中的统一资源定位符发送至爬虫引擎,爬虫引擎根据统一资源定位符提取并返回页面数据;接收并将爬虫引擎返回的页面数据返回给用户;从而用户通过对网页的页面元素的选取就能获取根据页面元素提取的域名对应的网站中的所有页面数据,无需用户编写采集脚本,降低了网页的页面数据采集的技术门槛,并提高了页面数据采集的效率。
技术领域
本发明实施例涉及数据处理技术领域,更具体地,涉及一种页面数据的获取方法、装置和设备。
背景技术
随着大数据的兴起,企业对数据资产日益重视,在完成了自有数据平台搭建后,纷纷自建专用或租用公有云爬虫平台进行互联网数据采集,聚合内外部数据以提升整体数据价值。
目前对于互联网数据挖掘,广泛采用爬虫引擎采集页面数据,如图1所示,主要的采集流程如下:1、用户分析互联网数据挖掘业务场景,确认目标网页及页面元素;2、分析网页结构,编写采集脚本;3、爬虫引擎按采集脚本进行调度和采集页面数据;4、将采集到的页面数据持久化到数据库;5、用户从数据库中提取结构化数据。
由于目前对互联网数据挖掘过程中需要编写采集脚本,需要有经验的工程师理解数据需求后完成对采集脚本的编写,对于使用者有较高的技术门槛,且对于不同网页甚至对于同一网页的少量数据需求的变更会造成需要重新编采集写脚本,采集脚本可重用性差,数据采集的效率低。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种页面数据的获取方法、装置和设备。
本发明实施例提供一种页面数据的获取方法,包括:获取用户选取的网页中的页面元素,提取页面元素对应的可扩展标记语言路径语言,并根据可扩展标记语言路径语言获取网页的域名;根据域名对网页进行网页结构分析,获取第一资源定位符集合,第一资源定位符集合为网页中的统一资源定位符组成的集合;将第一资源定位符集合发送至爬虫引擎,以供爬虫引擎根据第一资源定位符集合提取并返回页面数据;接收爬虫引擎返回的页面数据,向用户返回页面数据。
本发明实施例提供一种页面数据的获取装置,包括:解析模块、分析模块、数据发送模块和数据返回模块;解析模块,用于获取用户选取的网页中的页面元素,提取页面元素对应的可扩展标记语言路径语言,并根据可扩展标记语言路径语言获取网页的域名;分析模块,用于根据域名对网页进行网页结构分析,获取第一资源定位符集合,第一资源定位符集合为网页中的统一资源定位符组成的集合;数据发送模块,用于将第一资源定位符集合发送至爬虫引擎,以供爬虫引擎根据第一资源定位符集合提取页面数据;数据返回模块,用于接收爬虫引擎返回的页面数据,向用户返回页面数据。
本发明实施例提供一种页面数据的获取设备,包括:至少一个处理器、至少一个存储器和通信总线;其中:处理器与存储器通过通信总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令以执行上述方法。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机程序,该计算机程序使计算机执行上述的方法。
本发明实施例提供的一种页面数据的获取方法、装置和设备,通过接收用户对页面元素的选取,提取所选取的页面元素的可扩展标记语言路径语言,以获取网页的域名;根据域名对网页进行网页结构分析,获取网页中的统一资源定位符;将网页中的统一资源定位符发送至爬虫引擎,爬虫引擎根据统一资源定位符提取并返回页面数据;接收并将爬虫引擎返回的页面数据返回给用户;从而用户通过对网页的页面元素的选取就能获取根据页面元素提取的域名对应的网站中的所有页面数据,无需用户编写采集脚本,降低了网页的页面数据采集的技术门槛,并提高了页面数据采集的效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司,未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810442578.0/2.html,转载请声明来源钻瓜专利网。