[发明专利]一种页面数据的获取方法、装置和设备在审
申请号: | 201810442578.0 | 申请日: | 2018-05-10 |
公开(公告)号: | CN110472126A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 齐希;朱骏 | 申请(专利权)人: | 中国移动通信集团浙江有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 11002 北京路浩知识产权代理有限公司 | 代理人: | 王莹;李相雨<国际申请>=<国际公布>= |
地址: | 310016 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种页面数据的获取方法、装置和设备,通过接收用户对页面元素的选取,提取所选取的页面元素的可扩展标记语言路径语言,以获取网页的域名;根据域名对网页进行网页结构分析,获取网页中的统一资源定位符;将网页中的统一资源定位符发送至爬虫引擎,爬虫引擎根据统一资源定位符提取并返回页面数据;接收并将爬虫引擎返回的页面数据返回给用户;从而用户通过对网页的页面元素的选取就能获取根据页面元素提取的域名对应的网站中的所有页面数据,无需用户编写采集脚本,降低了网页的页面数据采集的技术门槛,并提高了页面数据采集的效率。 | ||
搜索关键词: | 页面数据 网页 页面元素 统一资源定位符 爬虫 引擎 采集 返回 可扩展标记语言路径 网页结构分析 技术门槛 接收用户 脚本 网站 发送 语言 | ||
【主权项】:
1.一种页面数据的获取方法,其特征在于,包括:/n获取用户选取的网页中的页面元素,提取所述页面元素对应的可扩展标记语言路径语言,并根据所述可扩展标记语言路径语言获取所述网页的域名;/n根据所述域名对所述网页进行网页结构分析,获取第一资源定位符集合,所述第一资源定位符集合为所述网页中的统一资源定位符组成的集合;/n将所述第一资源定位符集合发送至爬虫引擎,以供所述爬虫引擎根据所述第一资源定位符集合提取并返回页面数据;/n接收所述爬虫引擎返回的页面数据,向所述用户返回所述页面数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司,未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810442578.0/,转载请声明来源钻瓜专利网。