[发明专利]字符转换系统和字符转换方法有效
申请号: | 201310415209.X | 申请日: | 2013-09-12 |
公开(公告)号: | CN104462068B | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 徐剑波;孙浩鹏;丁力;王海涛;耿蕾蕾 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;方正信息产业控股有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/22 |
代理公司: | 北京友联知识产权代理事务所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 转换 系统 方法 | ||
技术领域
本发明涉及文字处理技术领域,具体而言,涉及一种字符转换系统和一种字符转换方法。
背景技术
中文文字有简体字与繁体字之分,然而因为简体字与繁体字之间的差异甚大,造成了这两种文字的使用者在交流信息上的隔阂。不仅是简体字的使用者在阅读繁体字上有一定的困难,对于没接触过简体字的繁体字使用者来说,阅读一份简体字文件也只能理解其中的部分内容。另外,简体字与繁体字所使用的编码也不相同,简体字是用GB(国标)编码,繁体字则是使用Big5码,因此如果使用者所在的本地端没有装设相应的编解码设备时,就会有显示乱码的情形发生。
简繁转换工具正是根据此需求产生,无论是网站或文字编辑软件几乎都附有这类的简繁转化工具,但要正确无误的转换一份简体字或繁体字文件,却并不轻松。通常的简繁转换是根据简/繁体文字的内码查找相对应的繁/简体文字内码来进行转换,但当遇到内码错误的情况就会出现转换出的内容与实际大相径庭的情况。这种文字内码与其字形不匹配的现象称作乱码现象。
乱码现象通常存在于含有内嵌字体数据格式的文档中,比如PDF或ePub等格式的文档。含有乱码(错误内码)的文档通常是显示正确,而在提取或复制文字时却出现乱码,这是由于文档在被制作时使用了特殊的字体或内嵌的字体数据经过了非常规的改动,导致文档无法提供正确的文字内码。另一方面,一部分特殊字体其字形的度量也与一般字体存在差异,这将导致使用一般字体绘制转换后的文字时可能出现字符大小显示异常的问题。由于历史原因,这类含有乱码的文档是大量存在的。
为了转换含有乱码的文档,只能重新制作文档,或采用OCR(光学字符识别)的技术手段将文档逐页识别出文字再进行转换,而这两种方法都需要消耗额外的人力资源。
因此,需要一种新的字符转换技术,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
发明内容
本发明正是基于上述问题,提出了一种字符转换技术,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
有鉴于此,本发明提出了一种字符转换系统,包括:解析单元,用于解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;判断单元,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件;转换单元,用于在所述判断单元判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,在所述判断单元判定不满足所述预设条件的情况下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
本发明还提出了一种字符转换方法,包括:解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件,若满足所述预设条件,则根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,若不满足所述预设条件,则根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
通过以上技术方案,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
附图说明
图1示出了根据本发明的实施例的字符转换系统的框图;
图2示出了根据本发明的实施例的字符转换方法的流程图;
图3示出了根据本发明的实施例的字符转换系统的结构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;方正信息产业控股有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;方正信息产业控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310415209.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频输出方法、装置、设备及存储介质
- 下一篇:音频自动播放系统及方法