[发明专利]一种大型XML文件的网络传输方法有效

专利信息
申请号: 201210013186.5 申请日: 2012-01-16
公开(公告)号: CN102571966A 公开(公告)日: 2012-07-11
发明(设计)人: 孙伟丰;李浩;王恒;程仁波;刘钰;王文军;郑程光;赖铮;罗正海;徐邵稀;胡奎;关健;赵伟 申请(专利权)人: 上海方正数字出版技术有限公司
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 胡晶
地址: 201203 上海市浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 大型 xml 文件 网络 传输 方法
【说明书】:

技术领域

发明涉及XML文件的传输,特别涉及一种大型XML文件的网络传输方法。

背景技术

XML(可扩展标记文件)是一种标记语言,其具有如下优点:(1)自描述性;(2)支持文档内容的验证;(3)允许不同领域的标记语言的存在;(4)支持高级搜集,故而,XML格式的文件在现今的互联网应用中被大量使用。由于现今Internet网络带宽容量的限制,使得系统在进行大型XML文件传输时,对XML进行有效的压缩及传输机制的设计显得尤为重要。

大型XML文件传输现有如下的两种方式:(1)文件结构感知;(2)非文件结构感知两种方式;而在文件结构感知方式中又分为:基于schema方式和非schema方式两种。

考虑到XML文件是以文本方式进行存储,在非结构感知方式下现行系统多采用传统的文本压缩方式进行XML文件的压缩,例如:采用bzip2,gzip等方式。虽然该种方式在对文本文件压缩时具有较大的压缩率,但同时此种方式缺点也较为明显:(1)压缩需占用较多计算资源(CPU,内存,IO等);(2)需要在发送端和接收端,同时具有相同的压缩/解压缩算法;(3)无法对压缩后的文件进行在线查询。

结构感知方式的压缩方式,其旨在利用对XML文档结构的感知来实现压缩的一种压缩方式,相对XML文档进行一般文本压缩处理的方式来说,该方法进一步提供了压缩率,但其依赖于其后端的压缩/解压算法和相应的XML文档的格式或XML文档的Schema,而没有对于XML文档中的一些冗余信息进行相应的处理。

基于对上述问题的讨论我们提出一种新的基于压缩和分批传输的大型XML文件网络传输方法,该方法具有较高的压缩率,较低的压缩/解压资源消耗,以及较快的传输速率等优点从而以较低的资源需求来完成海量数据的传输。

在进行大型XML文件网络传输时,首要考虑的问题是网络带宽,其次是要考虑尽可能地减少所需要传输文档的大小,最后要考虑的是传输过程所造成文档误差的检查和修复能力。在此,我们主要关注前面两点,即如何在有限的网络带宽下,提高系统的吞吐量。

现有对于大型XML文档进行网络传输时所采用的方法有上述提及的基于XML文档结构感知和非结构感知的两种主要方法,他们的重点均侧重于对于XML文档的压缩处理,而对于压缩后的文件的传输问题则没有过多的讨论。

下面就主要讨论一下上述各个方案。首先,对于非结构感知,其主要侧重于对于XML文档进行相关的压缩,其所采用的方法是将XML文档作为文本文件进行压缩/解压处理,从而达到减少相应所需传输文件大小的目的。如在进行XML文档传输之前对相关文档使用文本压缩算法进行压缩,在接收端使用相应的解压算法对所接收的压缩文件进行解压并还原出源文件。该方案主要使用基于LZ77和Huffman编码,Burrows-Wheeler转换和自适应统计数据压缩技术的gzip,bzip2,PPM等算法对XML文档进行相关压缩。

结构感知的压缩算法主要利用了XML文档的高度结构化的特点,对XML文档进行结构分析,将XML文档的结构和数据分开,将XML文档结构使用树型数据结构来表示,然后将各个节点的数据保存至该树的各个叶子节点上的同质的容器中。XMill作为独立模式的结构感知的压缩算法现在已经广泛的应用在大型XML文档压缩中。例如对于如下的XML文档:

XMill首先根据文档中的所有元素节点构造相应的元素容器,下表表示上述的XML文档所对应的元素容器及属性容器和数据容器的情况。

元素表

属性表

  1  /books/book/id

/books/book/title

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海方正数字出版技术有限公司,未经上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210013186.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top