[发明专利]一种页面数据的获取方法、装置和设备在审
申请号: | 201810442578.0 | 申请日: | 2018-05-10 |
公开(公告)号: | CN110472126A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 齐希;朱骏 | 申请(专利权)人: | 中国移动通信集团浙江有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 11002 北京路浩知识产权代理有限公司 | 代理人: | 王莹;李相雨<国际申请>=<国际公布>= |
地址: | 310016 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面数据 网页 页面元素 统一资源定位符 爬虫 引擎 采集 返回 可扩展标记语言路径 网页结构分析 技术门槛 接收用户 脚本 网站 发送 语言 | ||
1.一种页面数据的获取方法,其特征在于,包括:
获取用户选取的网页中的页面元素,提取所述页面元素对应的可扩展标记语言路径语言,并根据所述可扩展标记语言路径语言获取所述网页的域名;
根据所述域名对所述网页进行网页结构分析,获取第一资源定位符集合,所述第一资源定位符集合为所述网页中的统一资源定位符组成的集合;
将所述第一资源定位符集合发送至爬虫引擎,以供所述爬虫引擎根据所述第一资源定位符集合提取并返回页面数据;
接收所述爬虫引擎返回的页面数据,向所述用户返回所述页面数据。
2.根据权利要求1所述的方法,其特征在于,所述接收所述爬虫引擎返回的页面数据之后,还包括:
将所述页面数据持久化至数据库,并根据所述域名对所述数据库进行页面数据检索,以获得对页面数据检索的检索结果;
相应的,所述向所述用户返回所述页面数据,包括:
向所述用户返回所述检索结果,所述检索结果包括所述页面数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述域名对所述网页进行网页结构分析,提取第一资源定位符集合,包括:
根据所述域名确定所述网页的网页结构中的根节点,以所述根节点作为起始节点并基于深度优先算法对所述网页结构中的节点进行遍历,获取每一节点的文本字符串;
根据所述域名确定正则表达式,所述正则表达式中包括所述域名对应的字符串;
根据所述正则表达式匹配每一节点的文本字符串,以获取所述网页中的统一资源定位符,所述网页中的统一资源定位符组成所述第一资源定位符集合。
4.根据权利要求2所述的方法,其特征在于,所述将所述页面数据持久化至数据库,包括:
将每一页面数据和每一页面数据对应的统一资源定位符存储到所述数据库中,并保持每一页面数据和每一页面数据对应的统一资源定位符之间的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一资源定位符集合发送至爬虫引擎之前,还包括:
将所述第一资源定位符集合中的统一资源定位符与所述数据库中的统一资源定位符一一匹配;
将匹配成功的统一资源定位符从所述第一资源定位符集合中滤除。
6.根据权利要求4所述的方法,其特征在于,所述根据所述域名对所述数据库进行页面数据检索,以获得对页面数据检索的检索结果,包括:
根据所述域名在所述数据库中匹配出第二资源定位符集合,所述第二资源定位符集合为所述数据库中包括所述域名对应的字符串的统一资源定位符组成的集合;
根据所述映射关系提取所述第二资源定位符集合中每一统一资源定位符对应的页面数据;
根据所述第二资源定位符集合中每一统一资源定位符和每一统一资源定位符对应的页面数据生成文档对象模型,将所述文档对象模型作为所述检索结果。
7.根据权利要求2所述的方法,其特征在于,所述将所述页面数据持久化至数据库之后,还包括:
监测所述数据库中每一页面数据的存储时刻;
根据所述存储时刻确定过期页面数据;
将所述过期页面数据对应的统一资源定位符发送至所述爬虫引擎,以供所述爬虫引擎重新提取并返回页面数据;
根据所述爬虫引擎重新提取并返回的页面数据对所述过期页面数据进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司,未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810442578.0/1.html,转载请声明来源钻瓜专利网。