[发明专利]一种基于不定长标识码的XML的压缩方法和装置有效
申请号: | 201310580015.5 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103605730A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 龚如宾;张炼珠 | 申请(专利权)人: | 山西三恒自动化设备有限公司;上海理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 冷锦超;邓东东 |
地址: | 030006 山西省太原市*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 定长 标识 xml 压缩 方法 装置 | ||
技术领域
本发明涉及数据业务技术领域,特别涉及一种XML的压缩方法和装置。
背景技术
可扩展标记语言(XML,Extensible Markup Language) 作为一种跨平台的标准数据交换格式而广泛应用于数字书籍格式表示、数据交换和存储等方面,是当前处理结构化文档信息的有力工具。由于XML 文档中包含大量重复出现的标签和结构信息,所以在XML 文档中包含大量的重复标签和结构信息,使其存储、传输的成本增加,在一定程度上阻碍了XML 应用的发展,特别在带宽和资源受限的移动设备上显得尤其突出。因此在数字书籍的移动阅读等很多应用中需要对XML文件进行压缩。尽管XML 文档可以采用通用文本压缩技术(如Gzip, Bzip2, WinZip 等)进行压缩,但这样会丧失XML文件固有的优势(如结构特征、语义特征等)。利用XML文件固有冗余特性来进行压缩成为当前研究的热点,常用的XML压缩方法有XMILL、XMLPPM、XWRT 等,但这些压缩算法对CPU 运算能力的要求较高,这个对于手机移动应用来说是一个瓶颈,因为在移动应用中,需要以低运算量来对XML文件进行压缩和解压。
公开号为:102096704A,发明名称为:一种XML的压缩方法和装置的发明专利申请公开一种XML的压缩方法和装置,起技术方案为:对于XML文档中的每一个元素, 在数据字典中定义一个与之相对应的字节;以及对于XML文档中的每一个属性,在数据字典中定义一个与之相对应的字节。上述方法能够高速地压缩XML文档,但是由于分配给元素名的比特位数只有5位,最多只能表示32个元素名;分配给属性名的比特位数只有6位,最多只能表示64个属性名,这在版式电子书籍的表示中远远不够,因为版式电子书籍要表示文档的几何版面结构和逻辑版面结构,往往需要表示上百个元素名和属性名。
发明内容
本发明克服现有技术存在的不足,提供一种使用不定长标识码来替换表示XML文档中的元素和属性的压缩方法,实现低负荷、高效地压缩含有大量元素和属性的XML文档。
为实现上述发明目的,本发明提供一种基于不定长标识码的XML的压缩方法,该方法包括:
对于XML文档中的每一个元素,在数据字典中定义一个与之相对应的不定长标识码;以及对于XML文档中的每一个属性,在数据字典中定义一个与之相对应的不定长标识码;
发送方使用所述数据字典中定义的对应不定长标识码逐个替换XML文档中的元素和属性,实现XML文档的替换压缩;
接收方根据所述数据字典中定义的与相应不定长标识码对应的元素和属性替换所接收到的替换压缩后的XML文档中的不定长标识码,实现XML文档的解压;
所述对于XML文档中的每一个元素,在数据字典中定义一个与之相对应的不定长标识码;以及对于XML文档中的每一个属性,在数据字典中定义一个与之相对应的不定长标识码包括:
对于XML文档中的每一个元素,采用8位比特位标识码表示,或是采用16位比特位标识码表示;其中高4位中的第1位用于判断是否为XML格式,第2位用于判断是否为元素,第3位用于判断是否为结束元素,第4位用于判断是否需要使用两个8位的字节来表示同一元素,剩余的比特位用于表示该元素;
对于XML文档中的每一个属性,采用8位比特位标识码表示,或是采用16位比特位标识码表示;其中高3位中的第1位用于判断是否为XML格式,第2位用于判断是否为属性,第3位用于判断是否需要使用两个8位的字节来表示同一属性,剩余的比特位用于表示该属性,其中属性的值以字符串格式表示。
在所述数据字典中,对于XML文档中的每一个元素,采用频度分析法来决定采用8位比特位标识码表示,或是采用16位比特位标识码表示。
在所述数据字典中,对于XML文档中的每一个元素,采用耗费字节数分析法来决定采用8位比特位标识码表示,或是采用16位比特位标识码表示。
在所述数据字典中,对于XML文档中的每一个属性,采用频度分析法来决定采用8位比特位标识码表示,或是采用16位比特位标识码表示。
在所述数据字典中,对于XML文档中的每一个属性,采用耗费字节数分析法来决定采用8位比特位标识码表示,或是采用16位比特位标识码表示。
本发明还提供了一种XML的压缩装置,该装置包括:XML读取模块、压缩用数据字典存储模块、标签替换压缩模块和通用压缩模块;其中:
XML读取模块,用于读取XML字节流数据;
压缩用数据字典存储模块,用于保存数据字典;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三恒自动化设备有限公司;上海理工大学,未经山西三恒自动化设备有限公司;上海理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310580015.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内外置通用的车灯
- 下一篇:一种基于2.4G无线通讯的电梯紧急报警对讲装置