首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种页面数据的获取方法、装置和设备在审

申请号：	201810442578.0	申请日：	2018-05-10
公开（公告）号：	CN110472126A	公开（公告）日：	2019-11-19
发明（设计）人：	齐希;朱骏	申请（专利权）人：	中国移动通信集团浙江有限公司;中国移动通信集团有限公司
主分类号：	G06F16/953	分类号：	G06F16/953
代理公司：	11002 北京路浩知识产权代理有限公司	代理人：	王莹;李相雨<国际申请>=<国际公布>=
地址：	310016 ***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	页面数据网页页面元素统一资源定位符爬虫引擎采集返回可扩展标记语言路径网页结构分析技术门槛接收用户脚本网站发送语言
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种页面数据的获取方法，其特征在于，包括：

获取用户选取的网页中的页面元素，提取所述页面元素对应的可扩展标记语言路径语言，并根据所述可扩展标记语言路径语言获取所述网页的域名；

根据所述域名对所述网页进行网页结构分析，获取第一资源定位符集合，所述第一资源定位符集合为所述网页中的统一资源定位符组成的集合；

将所述第一资源定位符集合发送至爬虫引擎，以供所述爬虫引擎根据所述第一资源定位符集合提取并返回页面数据；

接收所述爬虫引擎返回的页面数据，向所述用户返回所述页面数据。

2.根据权利要求1所述的方法，其特征在于，所述接收所述爬虫引擎返回的页面数据之后，还包括：

将所述页面数据持久化至数据库，并根据所述域名对所述数据库进行页面数据检索，以获得对页面数据检索的检索结果；

相应的，所述向所述用户返回所述页面数据，包括：

向所述用户返回所述检索结果，所述检索结果包括所述页面数据。

3.根据权利要求1所述的方法，其特征在于，所述根据所述域名对所述网页进行网页结构分析，提取第一资源定位符集合，包括：

根据所述域名确定所述网页的网页结构中的根节点，以所述根节点作为起始节点并基于深度优先算法对所述网页结构中的节点进行遍历，获取每一节点的文本字符串；

根据所述域名确定正则表达式，所述正则表达式中包括所述域名对应的字符串；

根据所述正则表达式匹配每一节点的文本字符串，以获取所述网页中的统一资源定位符，所述网页中的统一资源定位符组成所述第一资源定位符集合。

4.根据权利要求2所述的方法，其特征在于，所述将所述页面数据持久化至数据库，包括：

将每一页面数据和每一页面数据对应的统一资源定位符存储到所述数据库中，并保持每一页面数据和每一页面数据对应的统一资源定位符之间的映射关系。

5.根据权利要求4所述的方法，其特征在于，所述将所述第一资源定位符集合发送至爬虫引擎之前，还包括：

将所述第一资源定位符集合中的统一资源定位符与所述数据库中的统一资源定位符一一匹配；

将匹配成功的统一资源定位符从所述第一资源定位符集合中滤除。

6.根据权利要求4所述的方法，其特征在于，所述根据所述域名对所述数据库进行页面数据检索，以获得对页面数据检索的检索结果，包括：

根据所述域名在所述数据库中匹配出第二资源定位符集合，所述第二资源定位符集合为所述数据库中包括所述域名对应的字符串的统一资源定位符组成的集合；

根据所述映射关系提取所述第二资源定位符集合中每一统一资源定位符对应的页面数据；

根据所述第二资源定位符集合中每一统一资源定位符和每一统一资源定位符对应的页面数据生成文档对象模型，将所述文档对象模型作为所述检索结果。

7.根据权利要求2所述的方法，其特征在于，所述将所述页面数据持久化至数据库之后，还包括：

监测所述数据库中每一页面数据的存储时刻；

根据所述存储时刻确定过期页面数据；

将所述过期页面数据对应的统一资源定位符发送至所述爬虫引擎，以供所述爬虫引擎重新提取并返回页面数据；

根据所述爬虫引擎重新提取并返回的页面数据对所述过期页面数据进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司，未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810442578.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于网络爬虫的多级页面的级联爬取方法和设备
下一篇：一种数据查询方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top