[发明专利]中文网页数据编码、解码方法及系统有效

申请号：	201210361682.X	申请日：	2012-09-25
公开（公告）号：	CN102880703A	公开（公告）日：	2013-01-16
发明（设计）人：	梁捷;俞永福;何小鹏;朱顺炎;田文	申请（专利权）人：	广州市动景计算机科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	林锦辉;龚洁
地址：	510665 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文网页数据编码解码方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及移动通信领域，更为具体地，涉及一种中文网页数据编码方法及装置，一种具有该中文网页数据编码装置的服务器，一种中文网页数据解码方法及装置，以及一种具有该中文网页数据解码方法的移动终端。

背景技术

为了节省用户上网流量，在将网页内容从服务器传输到移动终端的浏览器客户端时，浏览器后台服务器会在网页传输前对网页进行压缩。当前服务器采用的通常是以Lz77为基础的压缩算法，比如Lz77压缩算法、Lzma压缩算法等，这些算法采用gzip、7zip等压缩格式。网页http://en.wikipedia.org/wiki/LZ77示出了Lz77压缩算法的相关描述。网页http://en.wikipedia.org/wiki/Lempel–Ziv–Markov_chain_algorithm示出了Lzma压缩算法的相关描述。在此将这些网页公开的内容通过引用的方式并入本申请中。

上述压缩算法的基本原理是在文本中寻找重复的字符串，建立一个重复字串的“词典”文件，并在输出中用词典的索引代替该字符串。词典无需与字符串编码一起传输，解压缩装置能够根据算法的逆过程重建原始字符串。

图1示出了LZW的压缩算法的流程图。

如图1所示，首先，初始化词典包含所有长度为1的字符串（步骤S110）。接着，找出与当前输入匹配的词典中最长字符串W（步骤S120）。然后，在输出中将W替换为词典索引，同时在输入中删除W（步骤S130），并且将W连同输入中的位于W之后的后续字符加入词典（步骤S140），然后回到步骤S120，重复执行上述处理，直到输入中包含的字符为空。

LZW算法对语言透明，由于该算法是在字节级别定义重复模式，因此它可以有效地应用于中文网页的压缩，但同时也因此不能有效利用语言本身的特性，比如中文从语义上讲其实是由一个个相对固定的‘词’组成的，但该算法不会考虑中文的这个特性。从压缩方法上讲，该压缩算法依赖于文本中的重复模式，如果某文本中不存在重复模式或者字符串重复较少，则该算法会失效或者压缩效率不高。同时，由于重复模式是在扫描文本的过程中逐渐识别，初步只能识别较短的模式，逐步才能识别较长的重复模式，这意味着文档的初始部分压缩率很低，这就对较短长度的网页压缩不利。根据对新闻类网页的初步统计，中文网页中的正文内容的压缩率在60~90%之间(压缩率越小表示压缩越好)，压缩效果明显不及由英文组成的js文件、css文件、html标签等。

发明内容

鉴于上述问题，本发明的一个目的是提供一种中文网页数据编码方法及装置，该方法及装置利用为预先设置的词库中的每个词分配的Unicode码位空间的私有空间或保留空间中的Unicode码位，对中文网页内容进行编码，从而提高中文网页数据的压缩效率。

本发明的另一目的在提供一种具有上述中文网页数据编码装置的中间服务器。

本发明的另一目的在于提供一种中文网页数据解码方法及装置，该方法及装置能够对如上编码的Unicode流进行解码，以恢复原始中文网页数据。

本发明的另一目的在于提供一种具有上述中文网页数据解码装置的移动终端。

根据本发明的一个方面，提供了一种中文网页数据编码方法，包括：从所获取的要被压缩的中文网页数据的第一个字符开始，重复执行下述过程，直到该所获取的中文网页数据全部替换成Unicode编码为止：从当前处理的中文网页数据的第一个字符开始，根据预先设置的词库，对该中文网页数据进行分词处理，以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词；在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时，在当前要被压缩的中文网页数据中，利用与该分词匹配的词的对应Unicode编码替换该分词，或者在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时，在当前要被压缩的中文网页数据中，利用该第一个字符的Unicode编码替换该第一个字符；以及从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分，作为下一当前处理的中文网页数据。

在上述方面的一个或多个示例中，所述词库中的每个词被预先分配Unicode码位空间中的私有空间或保留空间中的一个Unicode编码

在上述方面的一个或多个示例中，所确定出的与词库中的词匹配的以当前处理的中文网页数据中的第一个字符开始的分词是以该第一个字符开始的能够与词库中的词匹配的最长分词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市动景计算机科技有限公司，未经广州市动景计算机科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210361682.X/2.html，转载请声明来源钻瓜专利网。

上一篇：网页主体内容识别方法和装置
下一篇：一种精简电子书字库的方法及电子书处理装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文网页数据编码、解码方法及系统有效

专利文献下载