[发明专利]一种页面数据的获取方法、装置和设备在审

申请号：	201810442578.0	申请日：	2018-05-10
公开（公告）号：	CN110472126A	公开（公告）日：	2019-11-19
发明（设计）人：	齐希;朱骏	申请（专利权）人：	中国移动通信集团浙江有限公司;中国移动通信集团有限公司
主分类号：	G06F16/953	分类号：	G06F16/953
代理公司：	11002 北京路浩知识产权代理有限公司	代理人：	王莹;李相雨<国际申请>=<国际公布>=
地址：	310016 ***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供一种页面数据的获取方法、装置和设备，通过接收用户对页面元素的选取，提取所选取的页面元素的可扩展标记语言路径语言，以获取网页的域名；根据域名对网页进行网页结构分析，获取网页中的统一资源定位符；将网页中的统一资源定位符发送至爬虫引擎，爬虫引擎根据统一资源定位符提取并返回页面数据；接收并将爬虫引擎返回的页面数据返回给用户；从而用户通过对网页的页面元素的选取就能获取根据页面元素提取的域名对应的网站中的所有页面数据，无需用户编写采集脚本，降低了网页的页面数据采集的技术门槛，并提高了页面数据采集的效率。
搜索关键词：	页面数据网页页面元素统一资源定位符爬虫引擎采集返回可扩展标记语言路径网页结构分析技术门槛接收用户脚本网站发送语言
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种页面数据的获取方法，其特征在于，包括：/n获取用户选取的网页中的页面元素，提取所述页面元素对应的可扩展标记语言路径语言，并根据所述可扩展标记语言路径语言获取所述网页的域名；/n根据所述域名对所述网页进行网页结构分析，获取第一资源定位符集合，所述第一资源定位符集合为所述网页中的统一资源定位符组成的集合；/n将所述第一资源定位符集合发送至爬虫引擎，以供所述爬虫引擎根据所述第一资源定位符集合提取并返回页面数据；/n接收所述爬虫引擎返回的页面数据，向所述用户返回所述页面数据。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司，未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810442578.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于网络爬虫的多级页面的级联爬取方法和设备
下一篇：一种数据查询方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种页面数据的获取方法、装置和设备在审

专利文献下载