[发明专利]压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信息处理系统在审

专利信息
申请号: 201380074814.3 申请日: 2013-03-22
公开(公告)号: CN105052041A 公开(公告)日: 2015-11-11
发明(设计)人: 村松千织;西泽信一郎;片冈正弘;出内将夫 申请(专利权)人: 富士通株式会社
主分类号: H03M7/40 分类号: H03M7/40
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 舒艳君;李洋
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 压缩 装置 方法 词典 生成 解压 程序 以及 信息处理 系统
【说明书】:

技术领域

本发明涉及数据的压缩技术或者解压技术的至少一方。

背景技术

在使用了哈夫曼编码、算术压缩等可变长度压缩编码的压缩算法中,对压缩编码的分配对象的字符信息组,字符信息组所包含的每个字符信息分配与出现频率等统计信息相应的长度的压缩编码。在哈夫曼编码的压缩算法中,基于字符信息组所包含的字符信息间的出现频率的大小比较来进行压缩编码的生成。在算术压缩中,生成基于字符信息组整体的各字符信息的出现比例确定的编码长度的压缩编码。在这些压缩算法中,出现频率越高的字符信息越分配较短的压缩编码,从而短的压缩编码的使用频率升高,所以压缩数据整体的压缩率提高。

哈夫曼编码、算术压缩等压缩算法中的可变长度压缩编码的分配对象是字符、数字等符号。另外,存在对压缩编码的分配对象进行扩长,对作为符号的组合的单词、标签等字符串分配可变长度压缩编码的技术。在该情况下,由于对多个符号的组合分配一个压缩编码,所以压缩率提高(例如,参照专利文献1)。

现有技术文献

专利文献

专利文献1:日本特开2010-93414号公报

专利文献2:日本特开平05-241777号公报

发明内容

发明要解决的课题

文档数据由作为字符、数字等符号的组合的单词、标签等字符串构成。文档数据内的各字符串分别与特定的含义、语法上的功能等概念对应,但即使是与通用的概念对应的字符串,彼此也存在符号的组合(书写)不同,所谓的书写差异。作为书写差异的例子,可举出动词、形容词等活用词的活用、同义词、近义词等。

在对单词、标签等字符串的可变长度压缩编码的分配中,越是出现频率较高的字符信息越分配较短的压缩编码。若产生书写相互不同的多个字符串(多个种类的字符串)与一个概念对应的书写差异,则与1种字符串与一个概念对应的没有书写差异的情况下的字符串的出现频率相比,多个种类的字符串的每一种的出现频率降低。因此,对多个种类的字符串的每一种分配的压缩编码变长,而成为压缩率降低的重要因素。

根据本发明的一个侧面,目的在于抑制由书写差异的存在引起的压缩率的降低。

用于解决课题的手段

根据一个实施方式,压缩装置包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;获取部,其在获取了上述多个字符信息中的第一字符信息的情况下,从上述词典信息中获取与上述第一字符信息相关联的上述第一压缩编码;以及写入部,其将获取的上述第一压缩编码写入储存压缩数据的储存区域。

根据一个实施方式,解压装置包含:存储部,其存储使对相互不同的多个字符信息通用地分配的第一压缩编码和与上述多个字符信息对应的第一字符信息相关联的词典信息;获取部,其在从压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的上述第一字符信息;以及写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的储存区域。

根据一个实施方式,信息处理系统是包含存储有压缩数据的存储装置、和执行与针对上述压缩数据的处理请求相应的处理的处理装置的信息处理系统,上述处理装置包含:存储部,其存储使对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;读出部,其根据上述处理请求,从上述存储装置中读出上述压缩数据;第一获取部,其在从上述压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的第一字符信息;第一写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的第一储存区域;处理部,其对被储存至上述第一储存区域的解压结果执行与上述处理请求相应的处理;第二获取部,其在从进行了与上述处理请求相应的处理的数据中获取了上述第一字符信息的情况下,根据上述词典信息获取与上述第一字符信息相关联的上述第一压缩编码;第二写入部,其将获取的上述第一压缩编码写入第二储存区域;以及储存部,其将被写入上述第二区域的数据储存至上述存储装置。

根据一个实施方式,词典生成装置包含:分配部,其对与相互不同的多个字符信息对应的1种通用字符信息进行压缩编码的分配处理;以及生成部,其生成使对上述通用字符信息分配的第一压缩编码与上述相互不同的多个字符信息的每一个相关联的词典信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380074814.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top