[发明专利]保存网页完整内容的方法、系统及相应的客户端和服务器有效

专利信息
申请号: 201210578711.8 申请日: 2012-12-27
公开(公告)号: CN103902571B 公开(公告)日: 2017-09-01
发明(设计)人: 程亮;潘农菲;安婷婷;谷琦 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L29/08
代理公司: 北京德琦知识产权代理有限公司11018 代理人: 张晓峰,宋志强
地址: 518044 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 保存 网页 完整 内容 方法 系统 相应 客户端 服务器
【说明书】:

技术领域

本申请涉及网页数据处理技术领域,尤其涉及一种保存网页完整内容的方法、系统及相应的客户端和服务器。

背景技术

网络浏览器简称浏览器,是指万维网(Web)服务的客户端浏览程序,浏览器在访问网页时,可以向Web服务器发送各种请求,并对从服务器发来的超文本信息和各种多媒体数据格式进行解析、显示和播放,从而将网页展示在终端屏幕上。

用户在通过浏览器访问网页时,往往希望能把当前浏览的网页的完整内容保存下来,在以后希望重新浏览该网页时,即使不访问该网页的发布服务器也可以正常浏览该网页的完整内容。为了满足这一需求,现有的大部分浏览器都有将当前浏览的网页的完整内容保存在本地终端(如计算机或移动终端)上的功能。

但是目前随着各种电子终端的普及,用户往往会拥有多个具有数据处理功能的电子终端,并可采用各个电子终端上的浏览器网浏览网页。例如在办公室使用台式计算机浏览网页,在家里使用笔记本电脑浏览网页,外出时又使用移动终端(例如智能手机、掌上电脑、平板电脑等)浏览网页,如果还是将当前浏览的网页的完整内容只保存在本地终端,那么当用户更换电子终端后,由于当前电子终端本地中没有保存网页,因此用户需要重新浏览该网页时,还需要访问该网页的发布服务器才可以正常浏览到该网页的完整内容,如果该发布服务器出现问题则无法再次浏览该网页。

为了解决这个问题,目前出现了一种在云端保存网页完整内容的技术方案,例如Evernote云端笔记系统。该技术方案中包括云端服务器和客户端,所述客户端作为计算机(PC)浏览器的插件安装在计算机浏览器上,用于对该计算机当前浏览的网页的完整内容(包括具体内容信息和样式信息)进行直接提取,并转换成所述云端服务器要求的指定格式的文件,该指定格式的文件中包含了网页的排版内容、样式信息、图片资源数据这些构成网页的完整内容;转换完毕后,再将该指定格式的文件上传到云端服务器进行保存,用户可以凭借帐号来访问该云端服务器。在用户以后希望重新浏览保存过的具有完整内容的网页时,不需要再访问该网页的发布服务器,而是登录所述云端服务器,访问该云端服务器中保存的网页即可。这样即使该网页的发布服务器出现问题也可以再次浏览该网页的完整内容,而且不必受到终端的限制,例如用户利用办公室电脑将网页保存到云端服务器,在家里使用笔记本电脑同样可以访问到该云端服务器中保存的网页。

但是上述技术方案只能适用于计算机即桌面平台,无法适用于机器性能很差的移动终端即移动平台,例如智能手机、掌上电脑、平板电脑等,因为所述客户端的转换工作对机器资源的开销太大,将上述技术方案直接移植到移动终端上,即直接将所述客户端安装在移动终端上,且采用现有方法对网页进行提取转换,会导致移动终端资源开销大、运行效率低的技术问题;同时,由于网页的所有内容(包括所有的文字和图片资源)的提取和转换工作在客户端完成,并且要将所有内容由客户端上传到云端服务器,因此会耗费大量的网络带宽资源,而移动终端的网络带宽资源又是相对稀少且昂贵的。

发明内容

有鉴于此,本发明的主要目的在于提供一种保存网页完整内容的方法、系统及相应的客户端和服务器,可以实现利用移动终端将网页的完整内容高效、快速地保存到云端服务器,同时又可以节约移动终端的机器资源开销和网络带宽资源。

本发明的技术方案是这样实现的:

一种保存网页完整内容的方法,包括:

客户端获取浏览器所解析的当前所展示网页的文档对象模型DOM树;并获取该网页的所有非内联样式数据;

客户端遍历所述DOM树,将所述非内联样式数据转换成所述DOM树中每个DOM元素的内联样式数据,并将转换后的内联样式数据保存在对应DOM元素的自定义属性中;

客户端将所述经过转换处理的DOM树上传到中转服务器;

中转服务器接收客户端上传的所述经过转换处理的DOM树;

中转服务器根据所述经过转换处理的DOM树中的图片标签抓取网页中的图片数据;

中转服务器按照云端服务器要求的格式,将所述DOM树和抓取到的图片数据转换成该云端服务器所要求的格式文件;

中转服务器将所述转换后的格式文件上传到所述云端服务器保存。

一种保存网页完整内容的系统,该系统包括客户端和中转服务器;

所述客户端包括第一模块、第二模块和第三模块;

所述第一模块用于获取浏览器所解析的当前所展示网页的文档对象模型DOM树;并获取该网页的所有非内联样式数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210578711.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top